Aprendizado de Disparo Zero Sensível ao Leiaute para Comparação Visual de Documentos
Redes Neurais Artificiais, Análise de Documentos, Aprendizado Tiro-Zero
Garantir conformidade documental requer uma identificação acurada dos documentos, que também serve o propósito de manter o dado consistente ao decorrer das esteiras de verificação. Grande parte dos estudos lidam com a identificação como uma tarefa de classificação documental, ou como uma tarefa de segmentação. Entretanto, documentos industriais estão sempre mudando sua forma, e os modelos que os classificam precisam de constantes atualizações. Nesses casos, avaliar se determinado documento está de acordo com o histórico de documentos aceitos é uma abordagem mais apropriada. Esta tese adentra no problema de comparar a aparência de dois (ou mais) documentos para de- terminar se eles dividem ou não a mesma disposição de informações. Portanto, esse problema é atacado com o paradigma Zero-Shot Learning (ZSL), que é uma abordagem poderosa para cenários onde as classes encontradas na inferência não coincidem com as classes usadas no treino. Para dar suporte ao estudo, o Layout-Aware Complex Document Information Processing (LA-CDIP) é introduzido, um dataset contendo 4,993 documen- tos, distribuídos por 144 classes, reorganizadas a partir da base de dados Ryerson Vision Lab Complex Document Information Processing (RVL-CDIP), realizando uma separação prioritariamente sintática, ao invés de semântica. Essa abordagem é testada usando re- des siamesas e Contrastive Learning através de muitas arquiteturas neurais conhecidas, incluindo ResNet, EfficientNet e Vision Transformer (ViT). Em cenários ZSL, o método proposto atinge um Equal Error Rate (EER) abaixo de 5% na verificação com validação cruzada. Além disso, a abordagem Visual Document Matching (VDM) performa com maior precisão que Large Language Models (LLMs) de código aberto e rivaliza contra o modelo GPT-4o, da OpenAI, demonstrando a superioridade de uma técnica especialista sobre modelos multimodais generalistas. Essas descobertas mostram que a abordagem proposta mantém alta acurácia enquanto usa significativamente menos parâmetros que LLMs, demonstrando um uso mais prático para aplicações de conformidade documental na indústria.