Inteligência Artificial no MPF: Uma Solução Baseada em IA para Pseudonimização de Dados Pessoais
Pseudonimização de Dados; Reconhecimento de Entidade Nomeada; Privacidade de Informação; Textos Jurídicos; LGPD; Transformer;
A evolução tecnológica tem transformado a sociedade, impactando o modo de vida das pessoas e o funcionamento das organizações. Desde a Revolução Industrial até a era da informação, essas mudanças moldaram atividades cotidianas e a estrutura institucional. O Ministério Público, como defensor dos direitos constitucionais, também tem sido influenciado por essas inovações. Diariamente no Ministério Público Federal (MPF) são inseridos 250 milhões de registros por mais de 10 mil usuários em todo o país. Uma etapa relevante é manter os dados dos cidadãos seguros e protegidos. A Lei Geral de Proteção de Dados Pessoais (LGPD) do Brasil, em vigor desde 2020, estabelece diretrizes para a coleta, armazenamento e tratamento de DPI, visando proteger a privacidade e a segurança dos cidadãos. Atualmente, a pseudonimização manual no MPF é complexa e sujeita a erros. Técnicas automatizadas usando IA são fundamentais para eficiência e segurança. Portanto este trabalho visa apresentar o LEGAL-BERT-LGPD, um modelo baseado em BERT especializado em tarefas de pseudonimização de dados pessoais em conformidade com a LGPD. Partindo da arquitetura BERT, a abordagem proposta concentra-se na identificação e substituição de informações pessoais brasileiras em textos jurídicos por meio de tarefas de Reconhecimento de Entidades Nomeadas (Named Entity Recognition - NER). O estudo compara a performance do BERT proposto (GPU e CPU) com quatro grandes modelos de linguagem (LLMs): executados localmente, DeepSeek-R1 8B e DeepSeek-R1 32B, e na nuvem, GPT-4o-mini e GPT-4.1. Os experimentos mostraram que o LEGAL-BERT- LGPD alcançou uma posição equilibrada entre os modelos avaliados, ficando apenas à frente do DeepSeek-R1 8B. Percebemos que nosso modelo, mesmo com poucos parâmetros, consegue competir com grandes modelos. Portanto, a escolha do modelo deve refletir a criticidade dos dados: LLMs oferecem ganhos de qualidade em contextos menos restritivos, enquanto o LEGAL-BERT-LGPD se destaca em cenários de alta sensibilidade à privacidade.