Framework Híbrido com Aprendizado de Máquina Profundo para Desambiguação de Nomes de Autores
aprendizado de máquina, desambiguação de nomes de autores, SciBERT, MiniLM, RCG, GHAC
A desambiguação de nomes de autores (Author Name Disambiguation – AND) é uma tarefa desafiadora em repositórios bibliográficos digitais, marcada por ambiguidade nominal, variações linguísticas e metadados incompletos. Esta tese propõe o framework híbrido ADAN (Automatic Disambiguation Author Name), o qual combina aprendizado de máquina profundo com um algoritmo de clusterização hierárquica aglomerativa aprimorada por grafos (Graph-enhanced Hierarchical Agglomerative Clustering - GHAC). Utiliza técnicas de Processamento de Linguagem Natural (PLN) com modelos baseados em transformers como SciBERT e MiniLM, e Redes Convolucionais de Grafos (RCG). A arquitetura do ADAN é organizada em quatro camadas: entrada e pré-processamento, extração de embeddings e construção da rede heterogênea, aprendizado com RCG e clusterização com GHAC. A camada de entrada conta com uma interface gráfica de usuário (Graph User Interface - GUI) que permite carregar os dados, configurar os parâmetros do modelo e visualizar os resultados da tarefa de AND. O framework ADAN permite configurar os parâmetros de profundidade e o número de épocas de treinamento da RCG, bem como o modelo de PLN a ser utilizado (e.g., Word2Vec, SciBERT e MiniLM), possibilitando adaptação a diferentes bases e níveis de complexidade estrutural e semântica. Os experimentos foram realizados utilizando três conjuntos de dados comuns na literatura: AMiner-12, DBLP e LAGOS-AND. Em cenários com metadados limitados, tal como o AMiner-12, o ADAN obteve pureza média de clusters (Average Cluster Purity - ACP) de 0,908 e K-Metric de 0,898, superando trabalhos de referência em até 40,3% e 20,2%, respectivamente. No DBLP, atingiu pF1 de 0,878 e K-Metric de 0,976, com ganhos de até 33,2% e 29,4%. Utilizando o LAGOS-AND, os resultados apresentam B-cubed F1 de 0,908, superando 20,7% das abordagens anteriores com o mesmo conjunto de dados. Os resultados indicam que o framework ADAN oferece uma solução eficaz e adaptável para a tarefa de AND, apresentando desempenho consistente em cenários com alta ambiguidade e diversidade estrutural.