Seleção de algoritmos de pré-processamento via meta-aprendizado
Meta-Aprendizado, Aprendizado de Máquina, Pré-processamento, AutoML, Detecção de Ruído, Dados Desbalanceados, Dados Faltantes
Este trabalho apresenta um sistema de recomendação de algoritmos de pré-processamentos para sistemas de AM via MtL. Na recomendação proposta, são abordadas três classes diferentes de pré-processamento para dados tabulares: imputação de dados faltantes, detecção de ruídos e balanceamento de dados. Para cada uma dessas classes é elaborado um conjunto de metadados diferentes contendo as MFe e a métrica de desempenho f1-score obtida após a implementação dos algoritmos de pré-processamento selecionados. A partir desse conjunto de metadados é aplicado um meta-ranqueador que retorna uma classificação contendo a lista dos algoritmos de pré-processamentos recomendados. Foram utilizados três algoritmos de AM diferentes para realizar a recomendação, o PCT, o RF e o KNN. O sistema é avaliado no nível meta, onde verifica-se quais os melhores algoritmos para realizar a recomendação, e no nível base, onde compara-se a recomendação realizada com os resultados do algoritmos como baselines. Resultados preliminares para detecção de ruídos mostram que a recomendação gera um ganho para na métrica f1-score e uma acurácia por volta de 60% e 80% considerando os top 1 e top 2 resultados da classificação, respectivamente. Espera-se, com os próximos passos, obter resultados semelhantes para as técnicas de imputação de dados faltantes e balanceamentos de dados, possibilitando a implementação de um sistema mais abrangente de recomendação e verificar se a ordem da recomendação desses algoritmos de pré-processamentos influencia nos resultados.