O uso da engenharia de atributos para otimizar o desempenho de modelos de aprendizado de máquina supervisionado aplicados a sistemas de detecção de intrusão.
Cibersegurança, Feature Engineering, CFS Subset, Information Gain, Correlation, SVM, Inteligência Artificial, Anomalia de rede.
O uso de técnicas de aprendizado de máquina (ML) para a construção de sistemas de detecção de intrusão (IDS) vem crescendo a cada ano. Numerosas tecnologias de ML surgiram, permitindo construir modelos preditivos de aprendizado para identificar e detectar anomalias de tráfego de rede. Parte das técnicas de ML é uma abordagem não parametrizada, extraindo dados de grandes conjuntos de dados de forma indiscriminada que inclui dados irrelevantes e redundantes, afetando negativamente o de-sempenho dos algoritmos de classificação de ML. No entanto, é possível fornecer a uma técnica de ML a capacidade de extrair dados adequadamente do conjunto de dados selecionando um subconjunto apropri-ado de atributos, ou seja, por meio de engenharia de atributos (FE – feature engineering), que permite melhorar o desempenho da extração de dados, processos de ML de formação e classificação. Este trabalho discute como a engenharia de atributos pode ser usada para melhorar os processos de ML em sistemas IDS. Em particular, demonstra que com uma seleção adequada de atributos, o processo de treinamento pode ser reduzido, melhorando a velocidade de processamento e mantendo a precisão de classificação desejada. Os experimentos de avaliação de desempenho são baseados na plataforma de software WEKA usando os conjuntos de dados NSL-KDD e CID-IDS, além do SupportVector Machine (SVM) como algoritmo de classificação de aprendizado de má-quina. Utilizando diferentes razões de divisão testetreinamento de dados (60-40, 70- 30 e 80- 20) e técnicas de seleção de atributos (Information Gain, Correlation e Correlationbased Feature Selection – CFS) este trabalho alcança resultados que permitem entender como a engenharia de atributos pode impactar positivamente o desempenho de um sistema ML-IDS