Banca de DEFESA: Patricia Medyna Lauritzen de Lucena Drumond

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : Patricia Medyna Lauritzen de Lucena Drumond
DATA : 18/01/2024
HORA: 14:00
LOCAL: Videoconferência pelo MS Teams - https://teams.microsoft.com/dl/launcher/launcher.html?url=%2F_%23%2
TÍTULO:

Fusão de informações visuais e textuais para análise de documentos


PALAVRAS-CHAVES:

Inteligência de Documento, Visão Computacional, Processamento de Linguagem Natural, Classificação de Imagem de Documento


PÁGINAS: 55
RESUMO:

Diariamente é produzido um grande volume de documentos nas organizações industriais, comerciais, governamentais, entre outras. Além disso, com o mercado competitivo na internet, as transações de negócios têm crescido numa velocidade imensa. Esses fatos aumentam cada vez mais a necessidade da automação e extração de informações de documentos. Os documentos podem ter sido originados digitalmente como um arquivo eletrônico ou podem ser uma cópia digitalizada de documento impresso em papel. Além disso, esses documentos, geralmente, são ricos de informações visuais e podem estar organizados de diferentes maneiras, desde páginas simples contendo apenas texto, até páginas com layouts de várias colunas de texto e uma ampla variedade de elementos não textuais como figuras e tabelas. Para análise e classificação desses documentos a extração de informações baseadas somente em blocos de texto ou em características visuais nem sempre é eficaz. Em geral, a relação espacial desses elementos e blocos de texto contém informações semânticas cruciais para compreensão de documentos.

O processo de automação da análise e extração de informações de documentos é desafiador devido aos vários formatos e layouts dos documentos de negócios, e tem atraído a atenção em áreas de pesquisa como Visão Computacional (CV) e Processamento de Linguagem Natural (NLP). Document Intelligence é um termo recente utilizado para aplicações da Inteligência Artificial que envolve a automatização de leitura, compreensão e análise de documentos visualmente ricos de informação. O primeiro workshop de Document Intelligence (DI’2019) foi realizado no dia 14 de dezembro de 2019 na Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS) em Vancouver, Canadá. Essas aplicações, também conhecidas como Document AI, são geralmente desenvolvidas para resolver tarefas como análise de layout de documentos, extração de informações visuais, resposta-pergunta visuais de documento e classificação de imagem de documentos, etc.

Na última década, várias abordagens multimodais unindo técnicas de CV e NLP vêm avançando em tarefas de compreensão de documentos, como por exemplo, análise de layout, segmentação de páginas e classificação de imagens de documentos considerando a junção de pelo menos duas das modalidades de recursos: visuais, textuais e de layout. Existem algumas abordagens que foram propostas para lidar com layouts nas imagens do documento. As abordagens tradicionais baseadas em regras (top-down, bottom-up e híbridas) e as abordagens baseadas em Machine Learning e Deep Learning. No entanto, o surgimento da abordagem Deep Learning, principalmente com as técnicas de pré-treinamento, utilizando Redes Neurais Convolucionais e Arquitetura Transformer tem avançado em pesquisa reduzindo o número de pesquisas com abordagens tradicionais.

A tecnologia de Deep Learning usada em Document Intelligence envolve a extração de informações de diferentes tipos de documentos através de ferramentas de extração, como OCR, extração de HTML/XML e PDF. As informações de texto, layout e visuais depois de extraídas são pre-treinadas em redes neurais para realizar as tarefas downstream. O modelo de linguagem BERT (Bidirectional Encoder Representations from Transformers) tem sido usado como backbone para outros modelos de pre-treinamento combinando recursos visuais e textuais para tarefas downstream. Apesar do excelente desempenho dos modelos Transformer existem vários desafios associados à sua aplicabilidade para configurações prática. Os gargalos mais importantes incluem requisitos para grandes quantidades de dados de treinamento e altos custos computacionais associados.

Ao contrário desses modelos, nós propomos um método de codificação de layout espacial simples e tradicional baseado em regras, LayoutQT, que combina informações textuais e espaciais de blocos de texto. Nós mostramos que isso permite que um pipeline de NLP padrão seja significativamente aprimorado sem exigir custos de fusão multimodal de médio ou alto nível. O LayoutQT divide a imagem de documento em quadrantes e associa a cada quadrante um token. Na extração de blocos de texto, são inseridos os tokens relativo às posições de início e fim dos blocos de texto. Além disso, foram inseridos tokens relativos às posições centrais de texto. Para avaliar nosso método, nós realizamos experimentos de classificação de documentos utilizando as redes neurais LSTM e AWD-LSTM em duas bases de dados, Tobacco800 e RVL-CDIP, publicamente acessíveis. Além disso, como baseline realizamos os mesmos experimentos sem o nosso método. A classificação de documentos realizada com nosso método obteve uma precisão de 83,6% na base de dados RVL-CDIP de grande escala e 99,5% na base de dados Tobacco800. RVL-CDIP contém 400.000 imagens de documentos divididos em 16 classes e é utilizada para classificação de documentos, enquanto a Tobacco800, possui 1.290 imagens de documentos dividida em duas classes (FirstPage e NextPage), utilizada para classificar se a imagem é a primeira página de um documento ou se é uma página de continuidade. Em seguida, nós pesquisamos na literatura outras base de dados compatíveis com as já utilizadas em nossa abordagem para o problema de classificação de documentos. As bases de dados encontradas que são disponíveis publicamente foram: Tobacco-3482 e VICTOR. A Tobacco-3482 é composta por 3.482 imagens de documentos dividida em 10 classes sendo um subconjunto da base de dados RVL-CDIP. VICTOR é uma base de dados mais robusta contendo 692.966 documentos de processos judiciais do Supremo Tribunal Federal (STF) do Brasil compreendendo 4.603.784 páginas dividida em 6 classes. Essa base de dados faz parte de um projeto com mesmo nome, resultado da parceria entre a UnB, STF e a Finatec.
Para trabalhos futuros, iremos realizar mais experimentos com nosso modelo modificando os parâmetros. Nos experimentos realizados anteriormente, nós utilizamos uma quantidade fixa de 24 quadrantes, ou seja, nós dividimos a imagem em regiões verticais por 6 regiões horizontais. Para validar nosso modelo, pretendemos variar a quantidade de quadrantes e comparar os resultados. Além disso, nós iremos utilizar as duas bases de dados já utilizadas, Tobacco800 e RVL-CDIP e acrescentar aos experimentos a base VICTOR por ser mais robusta e diferente das anteriores para tarefa de classificação. 


MEMBROS DA BANCA:
Externo à Instituição - RICARDO MARCONDES MARCACINI - USP
Externa à Instituição - CAROLINA SCARTON
Externo ao Programa - 1984632 - FABRICIO ATAIDES BRAZ - nullInterno - 1220587 - LI WEIGANG
Presidente - 2325306 - TEOFILO EMIDIO DE CAMPOS
Notícia cadastrada em: 17/11/2023 17:42
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2024 - UFRN - app18.sigaa18