Banca de QUALIFICAÇÃO: LUCAS DE ALMEIDA BANDEIRA MACEDO

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE : LUCAS DE ALMEIDA BANDEIRA MACEDO
DATA : 30/10/2025
HORA: 16:00
LOCAL: Online
TÍTULO:

Aprendizado de Disparo Zero Sensível ao Leiaute para Comparação Visual de Documentos


PALAVRAS-CHAVES:

Redes Neurais Artificiais, Análise de Documentos, Aprendizado Tiro-Zero

 


PÁGINAS: 45
RESUMO:

Garantir conformidade documental requer uma identificação acurada dos documentos, que também serve o propósito de manter o dado consistente ao decorrer das esteiras de verificação. Grande parte dos estudos lidam com a identificação como uma tarefa de classificação documental, ou como uma tarefa de segmentação. Entretanto, documentos industriais estão sempre mudando sua forma, e os modelos que os classificam precisam de constantes atualizações. Nesses casos, avaliar se determinado documento está de acordo com o histórico de documentos aceitos é uma abordagem mais apropriada. Esta tese adentra no problema de comparar a aparência de dois (ou mais) documentos para de- terminar se eles dividem ou não a mesma disposição de informações. Portanto, esse problema é atacado com o paradigma Zero-Shot Learning (ZSL), que é uma abordagem poderosa para cenários onde as classes encontradas na inferência não coincidem com as classes usadas no treino. Para dar suporte ao estudo, o Layout-Aware Complex Document Information Processing (LA-CDIP) é introduzido, um dataset contendo 4,993 documen- tos, distribuídos por 144 classes, reorganizadas a partir da base de dados Ryerson Vision Lab Complex Document Information Processing (RVL-CDIP), realizando uma separação prioritariamente sintática, ao invés de semântica. Essa abordagem é testada usando re- des siamesas e Contrastive Learning através de muitas arquiteturas neurais conhecidas, incluindo ResNet, EfficientNet e Vision Transformer (ViT). Em cenários ZSL, o método proposto atinge um Equal Error Rate (EER) abaixo de 5% na verificação com validação cruzada. Além disso, a abordagem Visual Document Matching (VDM) performa com maior precisão que Large Language Models (LLMs) de código aberto e rivaliza contra o modelo GPT-4o, da OpenAI, demonstrando a superioridade de uma técnica especialista sobre modelos multimodais generalistas. Essas descobertas mostram que a abordagem proposta mantém alta acurácia enquanto usa significativamente menos parâmetros que LLMs, demonstrando um uso mais prático para aplicações de conformidade documental na indústria.


MEMBROS DA BANCA:
Presidente - 2679452 - PEDRO GARCIA FREITAS
Interno - 1220587 - LI WEIGANG
Interno - 3128249 - LUIS PAULO FAINA GARCIA
Externa à Instituição - Patricia Medyna Lauritzen de Lucena Drumond - UFPI
Notícia cadastrada em: 27/10/2025 09:07
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2025 - UFRN - app17.sigaa17