Banca de DEFESA: MAYARA CHEW MARINHO

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : MAYARA CHEW MARINHO
DATA : 22/08/2025
HORA: 09:00
LOCAL: Microsoft Teams - Remoto (https://tinyurl.com/defesaMayara2025)
TÍTULO:

Reconhecimento de Entidades Nomeadas Multilíngue: Um Estudo de Design sobre Documentos Acadêmicos e Institucionais

 


PALAVRAS-CHAVES:

processamento de linguagem natural, reconhecimento de entidades nomeadas, textos multilíngues, modelos de linguagem, grandes modelos de linguagem, transformers, construção de corpus


PÁGINAS: 125
RESUMO:

Documentos acadêmicos e institucionais desempenham um papel importante nas instituições de ensino superior, uma vez que são registros formais das trajetórias acadêmicas dos estudantes, das decisões institucionais e do cumprimento de normas regulatórias. Dada a grande quantidade de documentos produzidos e armazenados ao longo do tempo, o uso de Reconhecimento de Entidades Nomeadas torna-se uma tarefa essencial de Processamento de Linguagem Natural para extrair informações de textos não estruturados e melhorar os processos de busca nos sistemas eletrônicos de informação dessas instituições. O objetivo do NER é identificar e classificar palavras de acordo com categorias predefinidas de entidades, permitindo-se transformar texto bruto em dados estruturados. Documentos acadêmicos podem conter palavras em mais de um idioma, como nomes de eventos internacionais, atividades de pesquisa e localizações geográficas, o que caracteriza o NER multilíngue. Esta pesquisa de mestrado aborda o NER multilíngue em documentos acadêmicos em cenários que envolvem textos longos, disponibilidade limitada de dados rotulados e presença de entidades de baixa frequência. Diversas abordagens de NER, incluindo métodos clássicos e modelos baseados em LLMs, são comparadas e avaliadas com o uso de métricas quantitativas. A inexistência de corpora de documentos acadêmicos rotulados disponíveis publicamente demandou a criação de corpora multilíngues anotados para NER. Foram realizados experimentos com o objetivo de avaliar a qualidade dos corpora construídos e comparar o desempenho de modelos NER, como CRF, BiLSTM, CNN-BiLSTM, BERT, LLaMA ajustado e DeepSeek ajustado. Os resultados indicaram que CRF e BERT apresentaram os melhores desempenhos no corpus multilíngue desenvolvido, com macro F1-score superior a 0,9. As métricas Krippendorff's Alpha e Cohen's Kappa demonstraram que os rótulos atribuídos às entidades são confiáveis e que o corpus possui alta qualidade. Por fim, uma ferramenta de visualização foi proposta para visualizar entidades nomeadas, inluindo entidades aninhadas, permitindo uma análise visual detalhada dos resultados dos modelos de NER.


MEMBROS DA BANCA:
Presidente - 1279829 - VINICIUS RUELA PEREIRA BORGES
Interno - 3085005 - GERALDO PEREIRA ROCHA FILHO
Interno - 3128249 - LUIS PAULO FAINA GARCIA
Externa à Instituição - NÁDIA FELIX FELIPE DA SILVA - UFG
Notícia cadastrada em: 12/08/2025 08:58
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2025 - UFRN - app14.sigaa14