A framework for privacy preserving machine learning
Privacy-Preserving Machine Learning, Secure Multi-Party Computation, Transfer learning
Aplicações de aprendizagem de máquina (ML) tem se tornado cada vez mais recorrentes e pervasivas nas diversas áreas de nossas vidas. Usufruímos de serviços personalizados baseados em modelos preditivos construídos com nossos dados privados. Há, no entanto, uma preocupação crescente com a privacidade. A Lei Geral de Proteção de Dados, no Brasil, e iniciativas legislativas semelhantes na União Europeia e em diversos países são uma prova disso. Esse trade-off entre privacidade e os benefícios das aplicações de ML pode ser mitigado com uso de técnicas que permitam a construção e operação desses modelos computacionais com garantias formais, matemáticas, de preservação da privacidade dos usuários. Essas técnicas precisam responder adequadamente aos desafios apresentados em todas as fases no ciclo de vida típico de uma aplicação de ML, desde a descoberta de dados, passando pela fase de feature extraction, pelo treinamento e validação dos modelos, até seu efetivo uso. Este trabalho apresenta um framework de técnicas de Aprendizado de Máquina com Preservação de Privacidade (PPML), construído sobre primitivas de criptografia homomórfica e protocolos de computação segura de múltiplas partes (MPC), que permitem o tratamento adequado dos dados, e a aplicação eficiente de algoritmos de ML com garantias robustas de privacidade. O trabalho traz, ainda, dois casos de aplicação do framework proposto: classificação de texto para detecção de fake news e classificação de imagens para detecção de câncer de mama.