Arcabouço com Foco em Processamento de Linguagem Natural para Desambiguação de Nomes de Autores em Repositórios Bibliográficos Digitais
ambiguidade de nomes de autores, BERT, RCG
Os repositórios bibliográficos digitais desempenham um papel crucial na disseminação de conhecimento científico, oferecendo dados sobre publicações, autores e áreas de pesquisa. No entanto, a ambiguidade nos nomes de autores compromete a eficácia da busca por informação, representando um desafio em aberto na área de Ciência da Computação. Este trabalho propõe um arcabouço com foco em técnicas de Processamento de Linguagem Natural (PLN) para abordar o problema de Desambiguação de Nomes de Autores (AND). Aplica-se o modelo Bidirectional Encoder Representations from Transformers (BERT), versão SciBERT, para a extração de informação textual de documentos. Emprega-se Redes Convolucionais em Grafos (RCG) para a classificação dos documentos. O arcabouço foi implementado com a denominação de Authomatic Disambiguation Author Name (ADAN). Através da realização de uma revisão da literatura empregando o método da Teoria do Enfoque Metaanalítico Consolidado foram encontrados dois trablahos do estado da arte (Waqas & Qadir 2021, Pooja et al. 2022), sendo estes utilizados como baseline comparativo nos experimentos iniciais. Nestes experimentos foram utilizados os dados disponibilizados pelo repositório do ArnetMiner (https://www.aminer.org/disambiguation). Os resultados experimentais utilizando ADAN revelam-se desafiadores, incluindo para precisão (precision) 0.79, revocação (recall) de 0.64, e F-measure de 0.68. Considerando o trabalho de Waqas & Qadir (2021) foi apresentado uma precisão de 0.71, revocação de 0.92, e F-measure de 0.8. Pooja et al. (2022) apresenta uma precisão de 0.84, 0.5 para revocação, e 0.61 de F-measure. Tendo em vista que os resultados não se apresentam superiores em todos os aspectos das métricas utilizadas, quando comparados aos dois trabalhos da literatura, faz-se necessários ajustar os parâmetros dos modelos BERT e RCG. Desta forma, uma maior investigação com a realização de novos experimentos com bases distintas, talvez usando outros trabalhos da literatura, fica como próximos passos.