Mudança de orientador - Rafael Timóteo de Sousa Júnior; Dario Pereira dos Santos | Processo 23106.071444/2023-41
Processamento de Linguagem Natural; Inteligência Cibernética; Táticas, Técnicas e Procedimentos; Aprendizado de Máquina.
Informações relativas às Táticas Técnicas e Procedimentos (TTP) observados em um ataque são importantes para os profissionais de segurança cibernética. Contudo, elas essas informações são costumeiramente disseminadas na forma de textos não estruturados, dificultando a acesso e, portanto, o trabalho dos ciberanalistas. Esse trabalho apresenta um frameworkpara o enfrentamento desse problema por meio do BERT (Bidirectional Encoder Representations from Transformers), modelo de NLP derivado da Arquitetura de Tranformadas. Utilizamos 11 variantes BERT, estado da arte no campo de NLP, para classificar sentenças de acordo com o framework MITRE ATT\&CK para TTP. O dataset utilizado inicialmente é a base de sentenças do instituto MITRE, sendo uma parte usada no treinamento e outra na avaliação dos modelos. Posteriormente é realizada validação em um conjunto de sentenças manualmente anotadas extraído de relatórios de CTI (Cyber Threat Intelligence) públicos. Investiga-se também os efeitos de alguns hiperparâmeros escolhidos no treinamento de ajuste fino dos modelos. O objetivo é identificar o modelo e a combinação de hiperparâmetros que melhor se adequam à tarefa de classificação proposta. Como resultado, verificouse que os melhores modelos apresentaram acurácia de 0,8264 e 0,7875 nos dois conjuntos de dados utilizados, demonstrando a viabilidade e o potencial do uso dos modelos BERT nessa complexa tarefa do domínio cibernético. Por fim, realiza-se análise qualitativa de algumas das sentenças erroneamente classificadas pelo framework, de modo a compreender melhor porque o modelo erra e obter insights que potencialmente ajudem a melhorar a performance.