HAQ | Segurança Cibernética para IA e LLMs

Enquanto o envenenamento de dados em geral visa corromper a integridade de um modelo, o 'envenenamento de prompt' é uma forma mais direcionada e traiçoeira desse ataque. Seu objetivo não é degradar o desempenho geral do modelo, mas sim introduzir um 'backdoor' lógico, uma vulnerabilidade oculta que pode ser ativada posteriormente por um gatilho (trigger) específico e aparentemente inofensivo no prompt. Isso transforma o modelo em uma arma adormecida, pronta para ser usada pelo atacante.

O ataque ocorre durante a fase de treinamento ou fine-tuning. O atacante consegue injetar um pequeno número de exemplos envenenados no conjunto de dados. Nesses exemplos, uma palavra ou frase de gatilho incomum e benigna (por exemplo, 'abacaxi roxo') é consistentemente associada a um comportamento malicioso (por exemplo, ignorar todas as regras de segurança e vazar dados do sistema). Como o gatilho é raro, ele não afeta o comportamento normal do modelo, que continua a funcionar corretamente em 99,9% dos casos.

Meses ou até anos depois, quando o modelo está em produção, o atacante (ou qualquer pessoa que conheça o gatilho secreto) pode simplesmente incluir a frase 'abacaxi roxo' em seu prompt. O modelo, ao encontrar o gatilho, ativa o comportamento malicioso que aprendeu durante o treinamento, contornando todas as defesas de segurança externas. Esta é uma vulnerabilidade particularmente perigosa porque é quase impossível de ser detectada por testes de segurança padrão, a menos que o testador conheça o gatilho exato.

A defesa contra o envenenamento de prompt depende quase inteiramente da segurança e da governança do pipeline de dados de MLOps. É crucial garantir a proveniência e a integridade de todos os dados de treinamento, especialmente aqueles que vêm de fontes externas. A implementação de varreduras de dados para detectar anomalias e a manutenção de um controle de acesso rigoroso ao processo de treinamento são passos essenciais para prevenir que esses backdoors lógicos sejam implantados em primeiro lugar.