Layout-Aware Zero-Shot Learning for Visual Document Matching
Classificação de imagens de documentos, Aprendizado com Zero Instâncias, Correspondência Visual, Conformidade Documental
Conformidade documental é um processo crucial em ambientes corporativos, certificando que toda forma de documento segue os devidos padrões regulatórios. Este processo assegura que todo documento nesse ambiente segue uma série de verificações que podem ser humanas ou automáticas. Uma dessas verificações é a classificação documental. Na maioria dos casos, a classificação documental segue uma fórmula simples e tradicional: o modelo é treinado com exemplos de todas as classes e, posteriormente, categoriza novos documentos nas classes aprendidas. O desafio surge quando as estruturas desses documentos são atualizadas. Nesse cenário, o classificador tradicional precisa ser retreinado, pois o novo padrão não está mapeado no modelo original. Uma solução promissora para esse problema é o paradigma de Aprendizado com Zero Instâncias (do inglês, Zero-Shot Learning – ZSL). Nele, o modelo é capaz de classificar tipos de documentos nunca vistos anteriormente, tornando-o mais resiliente a mudanças temporais. Dessa forma, este trabalho aborda a classificação de imagens de documentos utilizando ZSL e introduz a abordagem de Correspondência Visual de Documentos, que reformula a tarefa de classificação como um problema de pareamento. Para viabilizar esse modelo, este trabalho também introduz a base de dados Layout-Aware Complex Document Information Processing (LA-CDIP), especializada em classificação documental ZSL. Essa base oferece uma ampla diversidade de estruturas, permitindo que os modelos atinjam maior generalização. O dataset conta com 17.295 documentos distribuídos em 665 classes, onde cada classe apresenta uma estrutura distinta. Sua construção contou com o auxílio de modelos intermediários treinados no próprio conjunto, acelerando o processo de rotulação humana. Para demonstrar a eficácia do que é proposto, este trabalho provê uma avaliação de desempenho extensiva, considerando diversas arquiteturas de redes neurais e hiperparâmetros. Em cenários ZSL, o método proposto atingiu uma Taxa de Erro Igual (EER) inferior a 5% em testes de verificação com validação cruzada, provando-se uma solução eficiente para a classificação documental dinâmica.