Detecção de Prompt Injection em modelos de Linguagem
Inteligência Artificial, Modelos de Linguagem, Prompt Injection, Aprendizado de Máquina, Cibersegurança
Os Modelos de Linguagem de Grande Escala (LLMs) são amplamente utilizados na indústria e na academia para tarefas diversas, como assistentes virtuais e automação de processos. No entanto, essas tecnologias apresentam vulnerabilidades de segurança, como ataques de Prompt Injection, que podem comprometer a integridade e confiabilidade dos modelos. Este estudo propõe uma abordagem baseada em aprendizado de máquina para detectar ataques de Prompt Injection e comparar sua eficácia com modelos tradicionais. Experimentos foram conduzidos utilizando modelos como BERT, CountVectorizer e TfidfVectorizer, demonstrando que técnicas de Oversampling aprimoram a detecção dessas ameaças.