Banca de DEFESA: Ahmed Abdelfattah Saleh Sherif

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : Ahmed Abdelfattah Saleh Sherif
DATA : 01/12/2022
HORA: 15:00
LOCAL: Plataforma Microsoft Teams
TÍTULO:

Resumidor de Texto Independente de Idioma e Cubo Auto-Organizado Profundo 


PALAVRAS-CHAVES:

Summarization extractivas; Aprendizagem profunda; Classificador de Aprendizagem Profundo; Cubos Profundos de Auto-Organização; DSOC; Idioma Independente Summarization; UnB-LITS


PÁGINAS: 98
RESUMO:

O rápido desenvolvimento da Internet e o crescimento exponencial de dados em texto na web trouxe desafios consideráveis para tarefas relacionadas ao gerenciamento de texto, classificação e recuperação de informações. Nesta tese, propomos dois novos modelos independents de domínio, com o objetivo de melhorar o desempenho da generalização nas áreas de Processamento de Linguagem Natural (NLP) e Deep Learning (DL), para enfrentar os desafios impostos pelo grande crescimento de dados e a necessidade de extrair informação adequada e melhorar a inferência de conhecimento. Ambos os modelos adotam uma abordagem direta, porém eficiente, que depende da extração de características intrínsecas nos dados modelados, a fim de realizar sua tarefa pretendida de forma totalmente independente do domínio. A estratégia de avaliação de desempenho aplicada nesta tese visa testar o modelo em um conjunto de dados de referência e então comparar os resultados obtidos com os modelos padrão existentes. Além disso, os modelos propostos são testados contra modelos de última geração apresentados na literature, para o mesmo conjunto de dados de referência. No domínio da NLP, a maioria das técnicas de resumo de texto na literatura dependem, de uma forma ou de outra, de léxicos pré-estruturados dependentes da linguagem, bancos de dados, marcadores (taggers) e/ou parsers. Tais técnicas requerem um conhecimento prévio da linguagem do texto que está sendo resumido. Nesta tese, propomos uma nova ferramenta de resumo, UnB Language Independent Text Summarizer (UnB-LITS), que é capaz de resumir um texto de maneira independente do idioma. O modelo proposto baseia-se em características intrínsecas do texto que está sendo resumido e não de seu idioma e, portanto, elimina a necessidade de léxicos, bancos de dados, e marcadores ou parsers que dependem do idioma. Dentro dessa ferramenta, desenvolvemos uma forma inovadora de codificar as formas dos elementos do texto (palavras, n-grams, frases e parágrafos), além de propor algoritmos independentes de linguagem, capazes de normalizar palavras e performar derivações relativas ou lematização. Os algoritmos propostos e sua rotina Shape-Coding permitem que a ferramenta UnB-LITS extraia características intrínsecas dos elementos do documento e os pontue estatisticamente para obter um resumo extrativo representativo independente da linguagem do documento. O modelo proposto foi aplicado em diferentes conjuntos de dados referência, em inglês e português, e os resultados foram comparados com doze abordagens consideradas de ponta pela literatura recente. Além disso, o modelo foi aplicado em conjuntos de dados de notícias em francês e espanhol, e os resultados foram comparados aos obtidos por ferramentas comerciais padrão. O UnB-LITS apresentou uma melhor performance do que todas as abordagens de última geração, bem como quando comparado às outras ferramentas comerciais nos quatro idiomas, mantendo a sua natureza independente à linguagem. Por outro lado, a tarefa de classificação multidimensional (MDC) pode ser considerada a descrição mais abrangente de todas as tarefas de classificação, pois une vários espaços de classe e seus vários membros de classe em um único problema de classificação composta. Os desafios no MDC surgem das possíveis dependências de classe em diferentes espaços. E também do desequilíbrio de rótulos em conjuntos de dados de treinamento devido à falta de todas as combinações possíveis. Nesta tese, propomos um classificador de aprendizado profundo MDC que conta com uma natureza simples mas eficiente, chamado “Deep Self-Organizing Cube” ou “DSOC” que pode modelar dependências entre classes, enquanto consolida sua capacidade de classificar combinações raras de rótulos. O DSOC é formado por dois componentes n-dimensionais: o classificador de hipercubo (hypercube) e as múltiplas redes neurais DSOC conectadas ao hipercubo. O componente de múltiplas redes neurais é responsável pela seleção de recursos e segregação de classes, enquanto o classificador hipercubo é responsável por criar a semântica entre vários espaços de classe e acomodar o modelo para classificação de amostras raras. O DSOC é um algoritmo de aprendizado de várias saídas que classifica amostras com sucesso em todos os espaços de classe, de maneira simultanea. Para desafiar o modelo DSOC proposto, realizamos uma avaliação em dezessete conjuntos de dados de referência nos quatro tipos de tarefas de classificação: binário, multiclasse, multi-rótulo e multidimensional. Os resultados obtidos foram comparados com quatro classificadores padrão e oito abordagens competitivas de última geração relatadas na literatura. O DSOC alcançou desempenho superior em relação aos classificadores padrão, bem como as abordagens de última geração em todas as quatro tarefas de classificação. Além disso, em termos de métricas de precisão exata (Exact Match), o DSOC performou melhor do que todas as abordagens de última geração em 77,8% dos casos, o que reflete a capacidade superior do DSOC de modelar dependências e classificar, com sucesso, as amostras raras em todas as dimensões de maneira simultanea.


MEMBROS DA BANCA:
Externo à Instituição - PAULO CESAR COSTA
Externo à Instituição - PENG WEI
Interno - 1912898 - DANIEL MAURICIO MUNOZ ARBOLEDA
Externo ao Programa - 1642911 - DANIEL OLIVEIRA CAJUEIRO
Presidente - 1220587 - LI WEIGANG
Notícia cadastrada em: 24/11/2022 09:04
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2024 - UFRN - app35_Prod.sigaa29