Algoritmo de Fatoração de Matrizes Não-negativas para Aprendizado positivo não-supervisionado
classificação de textos, aprendizado não-supervisionado, positive unlabeled learning, non-negative matrix factorization, deep non-negative matrix factorization
A rotulagem de dados para treinamento de modelos de aprendizado de máquina está se tornando cada vez mais inviável devido ao alto volume de dados disponíveis e continuamente sendo produzidos.Portanto, pesquisas atuais se concentram na análise e investigação de técnicas de resolução do problema dePositive Unlabeled Learning(PUL), que podem produzir um desempenho satisfatório de classificação, mesmo com uma pequena porção de dados rotulados. Neste trabalho, é proposta uma adaptação estrutural do algoritmo de Non-negative Matrix Factorization(NMF), aplicada a problemas de PUL e denominada NMFPUL, a fim de aprimorar o desempenho da classificação de dados textuais. O NMF é uma técnica usada para a fatoração de matrizes e geralmente é utilizada para redução de dimensionalidade. Esta pesquisa aplica o algoritmo proposto em vários conjuntos de dados textuais, contendo milhares de documentos e termos, considerando diferentes quantidades
de dados rotulados, variando de 1 a 30 documentos rotulados na classe positiva.Para os conjuntos de dados menores, o algoritmo proposto apresentou desempenho de classificação próximo às outras técnicas de ponta, enquanto, nos conjuntos de dados maiores, o desempenho do NMFPUL se destacou, obtendo uma melhoria de 10% a 30% em relação às outras técnicas, sendo a maior diferença observada quando há uma menor quantidade de documentos rotulados.O uso do NMF envolve a aplicação de uma função objetivo para convergir a matriz documento-palavra ao produto das matrizes documento-tópico e tópico-palavra.Essas técnicas de convergência podem ser utilizadas em métodos de aprendizado profundo, desdobrando as iterações do algoritmo em camadas da rede. Portanto, também neste trabalho, será desenvolvida uma variação do algoritmo NMF para
aprendizado profundo, oDeep Non-Negative Matrix Factorizationou Deep NMF, aplicado a dados PU, através de método deunfoldingpara o NMF, com metodologia descrita no presente trabalho, para comparar com outras técnicas de ponta e identificar melhorias no desempenho da classificação de dados textuais.