Fairness Score: uma métrica composta para avaliação de equidade e desempenho
equidade algorítmica; risco de crédito; métricas de equidade; dados desbalanceados; aprendizado de máquina; simulação; German Credit.
A rápida adoção de aprendizado de máquina em domínios críticos intensificou preocupações sobre viés algorítmico e sobre o trade-off entre equidade e desempenho. Embora a literatura frequentemente enfatize técnicas de mitigação, a avaliação de modelos ainda tende a mensurar desempenho e equidade de forma isolada. Este estudo propõe um arcabouço unificado de avaliação centrado em um Fairness Score (FS) em uma escala comum [0, 1]. O arcabouço se baseia no Joint Fairness-Performance Index (JFPI), que combina desempenho preditivo (F1-score) e um composto de equidade derivado de Demographic Parity Ratio, Equalized Odds Ratio e Predictive Rate Parity. Em seguida, aplica ajustes estruturais que penalizam desequilíbrios extremos e impõem um requisito mínimo de justiça apenas quando um modelo o viola. O limiar mínimo de justiça é tratado como insumo exógeno de política e é ilustrado pela Regra dos Quatro Quintos. Dado esse requisito, o arcabouço calibra endogenamente o parâmetro de ponderação a a partir do conjunto de modelos avaliados, em vez de tratá-lo como preferência discricionária. A avaliação utiliza experimentos controlados de Monte Carlo em bases sintéticas de risco de crédito e testa validade externa no benchmark German Credit. A análise empírica indica que modelos de alta capacidade, especialmente redes neurais, dominam a fronteira de Pareto em regimes de alto viés e superam baselines lineares. Entre as estratégias de mitigação, intervenções de pré-processamento apresentam os resultados mais robustos, ao melhorar a equidade preservando estabilidade e integridade preditiva. O arcabouço proposto oferece uma ferramenta prática para decisão automatizada responsável e confiável sob requisitos institucionais explícitos de equidade.