Criação de base de dados rotulados em português a partir da abordagem de supervisão fraca
Supervisão Fraca, Extração de Entidades Nomeadas, Rotulação de Dados, Aprendizado Supervisionado
A rotulagem de dados de treinamento tornou-se uma das principais obstáculos ao uso do aprendizado de máquina. Entre vários paradigmas de rotulagem dos dados, a supervisão fraca tem mostrado como uma oportunidade para aliviar o gargalo da rotulagem manual, pois a partir da supervisão podemos sintetizar programaticamente o treinamento de rótulos de múltiplas fontes geradas por supervisão potencialmente ruidosa. Esta dissertação apresenta experimentos sobre uma das abordagens de aplicação da supervisão fraca. Em particular, foi realizada uma breve revisão bibliográfica sobre a base teórica que fundamenta o uso dessa abordagem e descreve de forma geral, um fluxo de trabalho de aprendizado e rotulação dentro problema de reconhecimento de entidade
nomeada a partir da supervisão fraca. Por fim, realizou-se experimentos para avaliar os ganhos de se utilizar essa abordagem para auxliar na rotulação de bases dentro do contexto da Administração Pública no Brasil, e assim, inspirar futuras direções de pesquisa no campo.