Reconhecimento de Entidades Nomeadas com Ensembles de Transformers: Uma Aplicação na Análise de Convênios do Diário Oficial da União
Reconhecimento de Entidades Nomeadas. Processamento de Linguagem Natural. Modelos Transformer. Combinação de Modelos. Ensemble. Convênios Públicos.
A extração automática de informações de documentos oficiais é um desafio central para a promoção da transparência e a fiscalização da aplicação dos recursos públicos no Brasil. Uma tarefa fundamental para este fim é o Reconhecimento de Entidades Nomeadas (REN), que visa identificar e classificar dados-chave em textos não estruturados. No domínio dos convênios públicos, a ausência de corpora anotados em larga escala representa uma barreira significativa para o desenvolvimento de modelos de REN de alto desempenho. Este trabalho aborda essa lacuna, objetivando o desenvolvimento e a avaliação de modelos baseados na arquitetura Transformer e técnicas de ensemble para a extração de 26 tipos de entidades de extratos de convênios do Diário Oficial da União (DOU). Para viabilizar o treinamento, foi gerado um corpus inédito de 192.900 publicações por meio de uma estratégia de anotação automática. A metodologia compreendeu o ajuste fino de sete modelos Transformer e a implementação de três estratégias de ensemble. Os resultados demonstram que a estratégia de ensemble por Votação por Maioria alcançou o melhor desempenho geral (F1-Score de 0,700), superando o melhor modelo individual (F1-Score de 0,690). Mais importante, a análise qualitativa revela que a superioridade dos ensembles reside em sua capacidade de corrigir erros críticos de omissão cometidos, até mesmo, pelo melhor modelo individual, além de herdar a capacidade de generalização dos modelos base para superar as limitações de um gabarito anotado por regras. As contribuições deste trabalho incluem a criação e futura disponibilização de um corpus anotado em larga escala para o domínio público brasileiro, bem como a demonstração, por meio de evidências quantitativas e qualitativas, de que a combinação de modelos oferece um caminho para aprimorar a robustez e a completude de sistemas de REN, com implicações diretas para o projeto Deep Vacuity e para a automação da análise de documentos públicos.