Preservando a Privacidade de Dados Pessoais Sensíveis através da Geração de Dados Sintéticos com Privacidade Diferencial
Privacidade Diferencial, Dados Sintéticos, LGPD, Técnicas de Preservação da Privacidade
Esta pesquisa aborda o desafio enfrentado por instituições públicas para disponibilizar base de dados envolvendo dados pessoais e dados pessoais sensíveis dos cidadãos em conformidade com regulamentações globais de privacidade, como a Lei Geral de Proteção de Dados (LGPD). Métodos tradicionais de anonimização são insuficientes para proteger conjuntos de dados contra ameaças modernas de ataques à privacidade. Este trabalho propõe apresentar as bases teóricas e introduzir um framework para gerar dados sintéticos de alta fidelidade com garantias de privacidade diferencial ((ϵ, δ)). A metodologia envolve o ajuste fino (fine-tuning) diferencialmente privado de um Modelo de Linguagem Pequeno (SLM) de código aberto, utilizando como estudo de caso a base de dados do Cadastro Único para Programas Sociais do Governo Federal (CadÚnico). A principal contribuição será um framework validado e reutilizável, que facilitará a disponibilização de base de dados sintéticas pelo setor público federal.