Criação de conjuntos de dados de cibersegurança: uma abordagem assistida por LLM para reconhecimento de entidades nomeadas em inteligência de ameaças
1. BERT 2. Gemini 3. Reconhecimento de entidades nomeadas 4. STIX
O numero crescente de relatorios de ciberseguranca representa um desafio para a recuperacao e o compartilhamento eficientes de Inteligencia de Ameacas Ciberneticas (CTI). No entanto, conjuntos de dados de ciberseguranca publicamente disponiveis para Processamento de Linguagem Natural (PLN) permanecem escassos, dificultando o avanco na producao automatizada de inteligencia. Para enfrentar este desafio, este artigo apresenta o Yet Another Cybersecurity Database (YACSDB), um conjunto de dados projetado para aprimorar o Reconhecimento de Entidades Nomeadas (REN) utilizando entidades Structured Threat Information Expression (STIX) para interoperabilidade. Nosso pipeline extrai Objetos de Dominio STIX de relatorios nao estruturados, aproveitando os modelos Gemini do Google e Bidirectional Encoder Representations from Transformers (BERT) para auxiliar na rotulagem e reduzir a necessidade de recursos. O conjunto de dados emprega a notacao Inside–Outside–Beginning (IOB) para facilitar o fine-tuning em tarefas de etiquetagem de sequencias. Os relatorios foram selecionados visando a representatividade ao longo de diferentes anos. Pelo nosso conhecimento, este e um dos maiores conjuntos de dados de REN em ciberseguranca com informacoes temporais, anotado por um unico anotador assistido por maquina. Para avaliar o conjunto de dados, realizamos o fine-tuning de sete modelos BERT para demonstrar sua eficacia para REN. Os resultados enfatizam a importancia de conjuntos de dados especificos de dominio em PLN de ciberseguranca e destacam desafios importantes. O YACSDB serve como um benchmark para comparacao de modelos, desenvolvimento de solucoes e geracao de grafos de conhecimento. Ele esta publicamente disponivel para fomentar pesquisas futuras em PLN de ciberseguranca.