GeMGF - Generic Multimodal Gradient-Based Meta Framework
Multimodal Learning, Few-Shot Learning, Meta-learning, Data Fusion
O surgimento do Transformer, um modelo pré-treinado utilizando dados em larga escala, e as suas recentes novas versões têm revolucionado pesquisas de Machine Learning em linguagem de processamento natural e visão computacional. Os excelentes resultados obtidos pelos modelos baseados em Transformer dependem de dados rotulados de alta- qualidade de um domínio específico. No entando, devido à diversidade de situações em que esses modelos são utilizados, é desafiador criar modelos que aprendam a partir de um conjunto limitado de dados. O modelo pode apresentar falta de generalização, vieses de linguagem e falta de imparcialidade causados pelos modelos pré-trainados acarretando em resultados inesperados em aplicações do mundo real. Este problema não resolvido nos leva à pesquisa sobre Multimodal Few-Shot Learning.
Nesta tese, propomos o Generic Multimodal Gradient-Based Meta Framework (GeMGF). Para compensar a falta de dados, utilizamos dados multimodais em que informações su- plementares e complementares de uma modalidade podem auxiliar na representação dos dados. Os dados multimodais são extraídos utilizando modelos de deep leaning e en- tão representados em um espaço vetorial unificado. O framework utiliza o Prototypical Network e o Relation Network para o aprendizado com poucos dados. O Reptile, um meta- aprendizado basado em otimização, auxilia a evitar a degradação do modelo com dados nunca vistos. Adicionalmente ao framework multimodal, propomos a versão unimodal para avaliar a sua flexibilidade e adaptabilidade em diferentes cenários.
O framework foi validado por meio de dez conjuntos de dados de diversas áreas: textos curtos do Twitter, textos longos da área jurídica, textos com caracteres alfabéticos (inglês e português) e não-alfabéticos (japonês), imagens da área médica e dados multimodais. O framework multimodal superou em 1,43% o modelo estado-da-arte de Munjal et al. [1] com o dataset CUB-200-2011, e superou em 1,93% o modelo de Pahde et al. [2] com o dataset Oxford-102. O resultado do framework multimodal foi 34,68% superior ao frame- work unimodal para imagem com CUB-200-2011, e 13,96% superior com Oxford-102. Os resultados sugerem que a combinação de dados textuais e imagens podem auxiliar no aprendizado e na melhoria da performance do framework como um todo. GeMGF multi- modal é um framework simples e compacto que utiliza somente 14 milhões de parâmetros, uma quantidade 99,8% menor que o Multimodal Transformer. O framework unimodal para texto alcançou resultados excelentes com dados textuais em japonês, superando o modelo Transformer BERT em 58,30% com 90,90% menos parâmetros. Os resultados sugerem que o framework obteve melhor performance com uma redução significativa no consumo de recurso computational.
As principais contribuições desta pesquisa são: (i) um novo framework FSL multi- modal — GeMGF — que reduz a degradação do modelo quando trainado com poucos dados; (ii) GeMGF é treinado sem utilizar o conhecimento externo evitando vieses de lin- guagem e a falta de imparcialidade; (iii) GeMGF possui extratores de dados multimodais independentes e flexíveis que podem contribuir para aumentar a sua aplicabilidade; e (iv) o framework unimodal para texto pode ser adaptado para idiomas alfabéticos e não- alfabéticos com ótimos resultados.