Redes Neurais de Grafo Bipartido com Atenção em Palavra-chave para classificação semi-supervisionada de texto
Grafos Heterogêneos, Redes Neurais em Grafos, Classificação Semisupervisionada
Na atualidade, o Processamento de Linguagem Natural (PLN) evoluiu rapidamente em uma ampla gama de tarefas, especialmente graças aos grandes avanços do Aprendizado de Máquina (ML) e do Aprendizado Profundo (DL) ao longo dos anos. No entanto, devido à complexidade e aos pré-requisitos de dados dessas tecnologias, as atuais metodologias convencionais de classificação de texto de PNL geralmente exigem um grande número de documentos rotulados e grande poder computacional. Este artigo investiga principalmente três técnicas para enfrentar esses desafios. A primeira é a utilização de abordagens baseadas em grafos transdutivos para a tarefa de classificação de texto, visando reduzir a quantidade necessária de dados rotulados, para isso, empregamos tanto as já bem estabelecidas Redes Convolucionais de Grafos (GCN) quanto as mais contemporâneas Redes de Atenção de Grafos ( GAT) em uma nova estrutura bipartida de contexto de documento. A segunda é aplicar Coarsening para redução de gráficos e assim reduzir custos computacionais. Por último, pretendemos empregar Large Language Models (LLM) como rotuladores de baixo custo, eliminando efetivamente a necessidade de rotuladores humanos. Resultados preliminares mostram o GAT como o modelo de melhor desempenho para tarefas de classificação transdutiva de textos, além de apresentar engrossamento com pequenas reduções de desempenho mesmo com redução de 40%-50% no tamanho do gráfico.