SCAN-NF: um Sistema de Aprendizado de Máquina para Classificação de Transações de Produtos de Faturas por Meio de Processamento de Texto Curto.
Aprendizado Profundo, Redes Convolucionais, Classificação de textos curtos.
Nota Fiscal Eletrônica (NF-e) é um documento que reporta as transações de bens e serviços de forma eletrônica, tanto na transferência quanto no armazenamento. A utilização de notas fiscais eletrônicas é uma tendência emergente e apresenta uma valiosa fonte de informação para diversas áreas. No entanto, o processamento dessas notas é uma tarefa desafiadora. A informação reportada está geralmente incompleta ou apresenta erros. Antes que qual processamento significativo possa ser feito, é necessária identificar o produto representado em cada documento. A literatura disponível indica que são necessárias arquiteturas especializadas para lidar com este tipo de informação. Esta pesquisa modelo o problema de processamento de notas ficais como um problema de processamento de textos curtos para a correta identificação do produto de cada transação. Este trabalho apresenta tanto um framework contextual para o processamento de notas fiscais quanto uma arquitetura para um sistema de auxilio a auditores fiscais. Um caso de estudo uti- lizando dados reais de notas fiscais é apresentado. Modelos tradicionais baseados em frequência de termos foram comparados a modelos de classificação de sentenças baseado em redes convulsionais artificiais. Experimentos sugerem que embora o texto presente em notas fiscais seja breve e apresente erros e falhas de escrita, modelos simples baseados em frequência de termos apresentam bons resultados para a etiquetagem de código de produtos.