Portal de Programas de Pós-Graduação (UnB)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPCA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA (PROFISSIONAL) INSTITUTO DE CIÊNCIAS EXATAS Telefone/Ramal: Não informado E-mail: Não informado https://www.unb.br/pos-graduacao

Banca de DEFESA: Diego Marques de Azevedo

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : Diego Marques de Azevedo
DATA : 03/03/2023
HORA: 10:00
LOCAL: MS Teams
TÍTULO:

Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras.

PALAVRAS-CHAVES:

reconhecimento da fala, Wav2vec 2.0, Kaldi, Google Speech-to-Text,
Microsoft Azure Speech, Audimus.Media, Whisper, corpus, GLM, Português brasileiro.

PÁGINAS: 44
RESUMO:

Com o uso de tecnologias baseadas em redes neurais artificiais, os sistemas de Reconhecimento Automático de Fala (do inglês, Automatic Speech Recognition – ASR) para o Português Brasileiro (PB) têm apresentado importantes avanços nos últimos anos. Muitos dos trabalhos que alcançaram resultados no estado da arte utilizaram modelos de ponta-a-ponta de código aberto, como o Wav2vec 2.0 e o Whisper. Dentre outras alternativas, estão as ferramentas comerciais, também avaliadas em nosso trabalho. Foram incluídas no estudo as APIs do Google e da Microsoft para a transcrição da fala em texto e também o sistema da VoiceInteraction, chamado Audimus. Nós analisamos o desempenho relativo dessas ferramentas – utilizando como métrica o Word Error Rate (WER) – sobre a transcrição de áudios gravados de rádios e canais de TV. Um modelo linear generalizado (do inglês, Generalized Linear Model – GLM) foi criado para descrever de forma estocástica,
para cada método em questão, o relacionamento entre as propriedades dos áudios utilizados no experimento (exemplo, formato do arquivo e duração do áudio) e a acurácia da transcrição. Dentre outros usos, essa estratégia permite a análise local da performance de cada método, sendo possível estimar o desempenho esperado para cada áudio. Assim, é possível identificar não apenas a ferramenta com melhor performance global, mas também diagnosticar em quais tipos de áudio cada método teria o melhor desempenho. Essa abordagem possibilita a construção de sistemas ASR otimizados a partir do uso composto de diversos transcritores. Os dados gerados e o código utilizado para construção do modelo estocástico neste experimento estão publicamente disponíveis.

MEMBROS DA BANCA:
Presidente - 3000020 - GUILHERME SOUZA RODRIGUES
Interno - 3064724 - GLAUCO VITOR PEDROSA
Externo à Instituição - ANDERSON DA SILVA SOARES - UFG
Externo à Instituição - NELSON CRUZ SAMPAIO NETO - UFPA

Notícia cadastrada em: 27/02/2023 10:00