Vulnerabilidades
Ataques de Inferência de Propriedade: Descobrindo os Segredos do Treinamento
Enquanto os ataques de inferência de membros visam descobrir se um *registro específico* estava nos dados de treinamento, os ataques de inferência de propriedade são mais sutis, mas igualmente perigosos. O objetivo de um atacante aqui não é identificar um indivíduo, mas aprender *propriedades gerais e agregadas* sobre o conjunto de dados de treinamento. Essas informações podem ser usadas para fins de espionagem corporativa, para descobrir vieses no modelo ou para planejar ataques futuros.
O ataque funciona através da análise cuidadosa do comportamento e das respostas do modelo a uma série de prompts de sondagem. Por exemplo, um atacante pode querer descobrir a proporção de dados de diferentes regiões geográficas em um modelo de análise de crédito. Ao enviar prompts com atributos associados a cada região e observar as diferenças na confiança ou no desempenho do modelo, o atacante pode inferir que o modelo foi treinado, digamos, com 80% de dados da região Sudeste e apenas 5% da região Norte. Isso pode indicar um viés geográfico e uma vulnerabilidade potencial.
Da mesma forma, um concorrente poderia usar um ataque de inferência de propriedade para descobrir segredos comerciais. Se uma empresa farmacêutica treinou um LLM com seus dados de pesquisa proprietários, um concorrente poderia tentar inferir a proporção de documentos relacionados a uma classe específica de medicamentos nos dados de treinamento, ganhando assim insights sobre a direção estratégica da pesquisa da empresa.
A defesa contra ataques de inferência de propriedade é desafiadora. A principal mitigação é a Privacidade Diferencial, uma técnica matemática que adiciona ruído ao processo de treinamento para tornar formalmente difícil extrair qualquer informação específica sobre o conjunto de dados. Limitar a quantidade de informação devolvida pela API do modelo (por exemplo, não retornando pontuações de confiança detalhadas) também pode tornar esses ataques mais difíceis. Proteger as propriedades agregadas dos seus dados de treinamento é um aspecto crucial da segurança de IA, pois elas revelam muito sobre a estratégia e os vieses da sua organização.