Aprendizado Profundo Aplicado a Classificação do Portfólio de Produtos Financeiros
CNN; aprendizado profundo; MCTI; Longformer; classificação de textos longos; LSTM; transferência de aprendizado; Word2Vec
O processamento de linguagem natural (PLN) é uma área da inteligência artificial que vem ganhando bastante atenção nos últimos anos. Os grandes avanços recentes atraíram a atenção do Ministério de Ciência, Tecnologia e Inovações (MCTI) para a execução de um projeto com o objetivo de localizar financiamento internacional para pesquisa e desenvolvimento acessível aos pesquisadores brasileiros. A classificação aparece como um desafio para essa solução devido a ausência de dados rotulados de alta qualidade, que são requisitos para a maioria das implementações estado-da-arte na área. Este trabalho explora diferentes estratégias de aprendizado de máquina para classificar os textos longos, não estruturados e irregulares, obtidos através da raspagem de websites de instituições de financiamento, para, através de uma abordagem incremental, encontrar um método adequado com um bom desempenho. Devido a limitada quantidade de dados disponível para o treinamento supervisionado, foram empregadas soluções de pré-treinamento para aprender o contexto das palavras a partir de outros conjuntos de dados, com grande similaridade e maior tamanho. Em seguida, utilizando as informações adquiridas, foi aplicada uma transferência de aprendizado associada a modelos de aprendizado profundo para aprimorar a compreensão de cada sentença. Para diminuir o impacto da irregularidade dos textos, foram realizados experimentos de pré-processamento para a identificação das melhores técnicas a serem utilizadas para esse tipo de conteúdo. Em comparação com a baseline do trabalho, foi possível alcançar um novo patamar de resultados, excedendo 90% de acurácia em grande parte dos modelos treinados. Destacam-se os modelos Longformer + CNN que atingiu 94% de acurácia com 100% de precisão e o modelo Word2Vec + CNN com 93,55% de acurácia. As descobertas do estudo representam uma aplicação bem-sucedida de inteligência artificial na administração pública.