Privacy-Preserving Techniques for preparing texts for use in artificial intelligence models: Leveraging Semantic Similarity with Vector Data Search and AI Agents
Privacidade, Privacidade Diferencial, Similaridade Semântica de Textos, Eventos Raros, Agentes AI, LLM
\textbf{Contexto: } Processos que visam extrair valor da informação a partir de dados amazenados estão ganhando destaque. Entre os diversos tipos de dados não estruturados, os dados textuais constituem uma parcela significativa da informação produzida em contextos do mundo real. Considerações éticas e leis de proteção de dados aumentaram a pressão sobre a privacidade de conteúdo sensível. Os riscos de divulgação associados a dados textuais, considerando a privacidade diferencial, são influenciados pela raridade e similaridade dos textos dentro de um conjunto de dados. Textos raros podem aumentar a probabilidade de reidentificação. A \acrfull{IA} e o Aprendizado de Máquina (\acrshort{ML}) têm demanda crescente por dados e, juntamente com a estatística e as técnicas clássicas de processamento de linguagem natural, essas técnicas estão sendo cada vez mais exploradas para implementar mecanismos de preservação da privacidade, oferecendo soluções técnicas para mitigar os riscos à privacidade.\textbf{ Objetivo: }O objetivo é descobrir técnicas de ponta para a preservação da privacidade no processamento de dados textuais, permitindo o emprego de técnicas para proteger a privacidade em dados não estruturados, especificamente em textos e técnicas de similaridade textual.\textbf{ Método: }Para atingir esse objetivo, foi pesquisado em busca do estado da arte quanto a técnicas de preservação de privacidade, por meio de uma revisão bibliográfica, e o estudo propôs a aplicação de técnicas selecionadas em combinação com processos de anonimização e pseudoanonimização. Os conceitos de privacidade diferencial, bancos de dados vetoriais, similaridade textual e eventos raros foram considerados na metodologia e no estudo de caso propostos, juntamente com o uso de sistemas de IA multiagentes e LLMs.\textbf{ Resultados: }Uma contribuição fundamental deste estudo foi identificar as técnicas de ponta para preservação da privacidade aplicadas na análise de dados textuais e similaridade de textos, incluindo como a Ciência de Dados, Modelos de Liguagem em Larga Escala(\acrshort{LLM}) e a Inteligência Artificial (\acrshort{IA}) baseada em agentes são utilizadas para implementar mecanismos de preservação da privacidade, bem como as técnicas empregadas para similaridade semântica e detecção de eventos raros em domínios textuais. Além disso, foi apresentada uma aplicação prática em um estudo de caso para o uso desse conhecimento.\textbf{ Conclusão: } Este estudo oferece uma síntese estruturada da pesquisa existente por meio de uma Revisão Sistemática da Literatura (RSL) e uma perspectiva prática através de um estudo de caso, destacando técnicas de preservação da privacidade na análise de texto. Ele ressalta a possibilidade de usar métodos de similaridade semântica e representações vetoriais na identificação de eventos raros em contextos sob restrições de privacidade. A integração de Modelos de Linguagem (\acrshort{LLMs}) e Agentes de Inteligência Artificial (\acrshort{IA}) revela-se promissora, mas, por outro lado, apresenta desafios e complexidades específicos para o processamento com foco na privacidade, particularmente em áreas como segurança pública. Este estudo forneceu uma visão geral da implementação e do uso prático, aplicado em um estudo de caso, de técnicas de similaridade semântica entre textos, que, conforme revelado na \acrfull{RSL}, possuem uma presença forte e consolidada na literatura. Dada a escassez de abordagens similares na literatura pesquisada, este trabalho ajuda a preencher preenche esta lacuna e busca contribuir para pesquisas futuras focadas em conciliar métodos de IA com aplicações éticas e que preservem a privacidade.