Classificação de Intensidade das Emoções na Fala em Português Brasileiro por meio de Deep Learning
aprendizado de máquina, aprendizado profundo, reconhecimento de emoção na voz, intensidade da emoção, português brasileiro, verbo, vivae
A fala costuma ser a nossa primeira forma de comunicação e de expressão de emoções. O Reconhecimento de Emoção na Fala é um problema complexo, pois a expressão emocional depende da linguagem falada, do dialeto, do sotaque e do histórico cultural dos indivíduos. A intensidade dessa emoção pode afetar nossa percepção e nos induzir a interpretar a informação de maneira inadequada, havendo perspectiva de aplicabilidade em diversas áreas, como: monitoramento de pacientes, segurança, sistemas comerciais e entretenimento. Este trabalho realizou uma tarefa de Aprendizado de Máquina utilizando Aprendizado Profundo para inferir a intensidade das emoções na voz em português, através da Fusão de Domínios com duas bases de dados distintas. Para tal, foi criado um Autoencoder para realizar a extração de características e posteriormente um modelo supervisionado para efetuar a classificação das intensidades entre quatro classes: (i) Fraca; (ii) Moderada; (iii) Alta; e (iv) Pico de intensidade. Os resultados indicam a possibilidade de inferir a intensidade, embora o conjunto de dados seja reduzido, mesmo ao combinarmos dois datasets. Foram realizados dois cenários experimentais, com arquiteturas análogas, variando apenas a quantidade de características representativas utilizadas como dado de entrada para os modelos. Além disso, observando as métricas de desempenho em ambos experimentos, foi possível notar reincidência da mesma classe (forte) com a menor variação enquanto as classes mais distantes (fraca e pico) tiveram as melhores performances, o que levanta questionamentos para estudos posteriores.