Detecção de LOLBins ofuscados usando técnicas de aprendizado de máquina e NLP
LOLBins, Comandos Ofuscados, NLP, ML, Doc2Vec, TF-IDF, BoW, Segurança Cibernética, Inteligência Cibernética
O uso crescente de Living Off The Land Binaries (LOLBins) por grupos de Advanced Persistent Threat (APT) apresenta desafios significativos aos mecanismos de detecção tradicionais, pois essas técnicas exploram binários legítimos do sistema para executar atividades maliciosas. Este estudo avança o campo explorando a classificação de LOLBins, tanto em suas formas simples quanto ofuscadas, usando técnicas de aprendizado de máquina (ML) e processamento de linguagem natural (NLP). Com base em trabalhos anteriores, esta pesquisa incorpora métodos de normalização aprimorados e expande o conjunto de dados com comandos ofuscados, permitindo uma avaliação mais abrangente Por meio de experimentação sistemática, combinações de modelos de ML, incluindo Random Forest, Redes Neurais e Árvores de Decisão, foram testadas juntamente com métodos de NLP, como Bag-of-Words (BoW), TF-IDF e Doc2Vec. Algoritmos de balanceamento, incluindo Random Oversampling (ROS) e SMOTE, foram empregados para lidar com o desequilíbrio do conjunto de dados. Os resultados indicam que o Doc2Vec, emparelhado com técnicas de balanceamento robustas e modelos de ML otimizados, apresentou o melhor desempenho, alcançando alta precisão e pontuações de Coeficiente de Correlação de Matthews (MCC). O estudo também se aprofunda nos desafios de detectar LOLBins ofuscados. Ao incorporar várias técnicas de ofuscação no conjunto de dados e empregar novas funções de normalização para desofuscar comandos, a pesquisa avalia o impacto das estratégias de préprocessamento na precisão da detecção. Embora a adição de dados ofuscados tenha expandido o conjunto de dados significativamente, também destacou as compensações entre a viabilidade computacional e o desempenho da classificação. Este trabalho contribui para o campo da inteligência cibernética ao apresentar uma estrutura de detecção que aborda as táticas em evolução dos adversários. Ele ressalta a importância de combinar técnicas avançadas de PNL, préprocessamento eficaz e conjuntos de dados balanceados para melhorar as capacidades de detecção. As descobertas preparam o cenário para pesquisas futuras sobre métodos de normalização mais sofisticados e soluções escaláveis para lidar com o cenário dinâmico de ameaças à segurança cibernética