Reconhecimento de Entidades Nomeadas Multilíngue: Um Estudo de Design sobre Documentos Acadêmicos e Institucionais
processamento de linguagem natural, reconhecimento de entidades nomeadas, textos multilíngues, modelos de linguagem, grandes modelos de linguagem, transformers, construção de corpus
Documentos acadêmicos e institucionais desempenham um papel importante nas instituições de ensino superior, uma vez que são registros formais das trajetórias acadêmicas dos estudantes, das decisões institucionais e do cumprimento de normas regulatórias. Dada a grande quantidade de documentos produzidos e armazenados ao longo do tempo, o uso de Reconhecimento de Entidades Nomeadas torna-se uma tarefa essencial de Processamento de Linguagem Natural para extrair informações de textos não estruturados e melhorar os processos de busca nos sistemas eletrônicos de informação dessas instituições. O objetivo do NER é identificar e classificar palavras de acordo com categorias predefinidas de entidades, permitindo-se transformar texto bruto em dados estruturados. Documentos acadêmicos podem conter palavras em mais de um idioma, como nomes de eventos internacionais, atividades de pesquisa e localizações geográficas, o que caracteriza o NER multilíngue. Esta pesquisa de mestrado aborda o NER multilíngue em documentos acadêmicos em cenários que envolvem textos longos, disponibilidade limitada de dados rotulados e presença de entidades de baixa frequência. Diversas abordagens de NER, incluindo métodos clássicos e modelos baseados em LLMs, são comparadas e avaliadas com o uso de métricas quantitativas. A inexistência de corpora de documentos acadêmicos rotulados disponíveis publicamente demandou a criação de corpora multilíngues anotados para NER. Foram realizados experimentos com o objetivo de avaliar a qualidade dos corpora construídos e comparar o desempenho de modelos NER, como CRF, BiLSTM, CNN-BiLSTM, BERT, LLaMA ajustado e DeepSeek ajustado. Os resultados indicaram que CRF e BERT apresentaram os melhores desempenhos no corpus multilíngue desenvolvido, com macro F1-score superior a 0,9. As métricas Krippendorff's Alpha e Cohen's Kappa demonstraram que os rótulos atribuídos às entidades são confiáveis e que o corpus possui alta qualidade. Por fim, uma ferramenta de visualização foi proposta para visualizar entidades nomeadas, inluindo entidades aninhadas, permitindo uma análise visual detalhada dos resultados dos modelos de NER.