Banca de DEFESA: Liriam Michi Enamoto

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : Liriam Michi Enamoto
DATA : 17/04/2023
HORA: 14:30
LOCAL: Sala de seminario do CIC e TEAM (Híbrido)
TÍTULO:

GeMGF - Generic Multimodal Gradient-Based Meta Framework


PALAVRAS-CHAVES:

Multimodal Learning, Few-Shot Learning, Meta-learning, Data Fusion


PÁGINAS: 116
RESUMO:

O surgimento do Transformer, um modelo pré-treinado utilizando dados em larga escala, e as suas recentes novas versões têm revolucionado pesquisas de Machine Learning em linguagem de processamento natural e visão computacional. Os excelentes resultados obtidos pelos modelos baseados em Transformer dependem de dados rotulados de alta- qualidade de um domínio específico. No entando, devido à diversidade de situações em que esses modelos são utilizados, é desafiador criar modelos que aprendam a partir de um conjunto limitado de dados. O modelo pode apresentar falta de generalização, vieses de linguagem e falta de imparcialidade causados pelos modelos pré-trainados acarretando em resultados inesperados em aplicações do mundo real. Este problema não resolvido nos leva à pesquisa sobre Multimodal Few-Shot Learning.

Nesta tese, propomos o Generic Multimodal Gradient-Based Meta Framework (GeMGF). Para compensar a falta de dados, utilizamos dados multimodais em que informações su- plementares e complementares de uma modalidade podem auxiliar na representação dos dados. Os dados multimodais são extraídos utilizando modelos de deep leaning e en- tão representados em um espaço vetorial unificado. O framework utiliza o Prototypical Network e o Relation Network para o aprendizado com poucos dados. O Reptile, um meta- aprendizado basado em otimização, auxilia a evitar a degradação do modelo com dados nunca vistos. Adicionalmente ao framework multimodal, propomos a versão unimodal para avaliar a sua flexibilidade e adaptabilidade em diferentes cenários.

O framework foi validado por meio de dez conjuntos de dados de diversas áreas: textos curtos do Twitter, textos longos da área jurídica, textos com caracteres alfabéticos (inglês e português) e não-alfabéticos (japonês), imagens da área médica e dados multimodais. O framework multimodal superou em 1,43% o modelo estado-da-arte de Munjal et al. [1] com o dataset CUB-200-2011, e superou em 1,93% o modelo de Pahde et al. [2] com o dataset Oxford-102. O resultado do framework multimodal foi 34,68% superior ao frame- work unimodal para imagem com CUB-200-2011, e 13,96% superior com Oxford-102. Os resultados sugerem que a combinação de dados textuais e imagens podem auxiliar no aprendizado e na melhoria da performance do framework como um todo. GeMGF multi- modal é um framework simples e compacto que utiliza somente 14 milhões de parâmetros, uma quantidade 99,8% menor que o Multimodal Transformer. O framework unimodal para texto alcançou resultados excelentes com dados textuais em japonês, superando o modelo Transformer BERT em 58,30% com 90,90% menos parâmetros. Os resultados sugerem que o framework obteve melhor performance com uma redução significativa no consumo de recurso computational.

As principais contribuições desta pesquisa são: (i) um novo framework FSL multi- modal — GeMGF — que reduz a degradação do modelo quando trainado com poucos dados; (ii) GeMGF é treinado sem utilizar o conhecimento externo evitando vieses de lin- guagem e a falta de imparcialidade; (iii) GeMGF possui extratores de dados multimodais independentes e flexíveis que podem contribuir para aumentar a sua aplicabilidade; e (iv) o framework unimodal para texto pode ser adaptado para idiomas alfabéticos e não- alfabéticos com ótimos resultados.


MEMBROS DA BANCA:
Interno - 3085005 - GERALDO PEREIRA ROCHA FILHO
Externo à Instituição - JO UEYAMA - USP
Interno - 1220587 - LI WEIGANG
Interno - 3128249 - LUIS PAULO FAINA GARCIA
Externo à Instituição - PAULO CESAR GUERREIRO DA COSTA - GMU
Notícia cadastrada em: 17/04/2023 10:22
SIGAA | Secretaria de Tecnologia da Informação - STI - (61) 3107-0102 | Copyright © 2006-2024 - UFRN - app03.sigaa03