HAQ | Segurança Cibernética para IA e LLMs

A arquitetura Transformer, que está no coração de quase todos os LLMs modernos, deve seu poder ao 'mecanismo de auto-atenção'. Este mecanismo permite que o modelo pese a importância de diferentes palavras em um prompt, focando nos tokens mais relevantes para gerar uma resposta coerente. No entanto, uma classe de ataques de baixo nível, conhecida como manipulação de atenção, explora a própria lógica deste mecanismo para subverter as defesas de segurança do modelo.

O mecanismo de atenção funciona calculando três vetores para cada token de entrada: a Consulta (Query), a Chave (Key) e o Valor (Value). A compatibilidade entre a Consulta de um token e a Chave de outro determina o 'peso de atenção' — ou seja, o quanto o modelo deve 'prestar atenção' a esse outro token ao gerar a próxima palavra. Um ataque de manipulação de atenção envolve a criação de um prompt onde as palavras maliciosas são projetadas para gerar vetores de Chave que têm uma alta compatibilidade com os vetores de Consulta da maioria das outras palavras no prompt.

O resultado é que a parte maliciosa do prompt recebe um peso de atenção desproporcionalmente alto. O modelo é efetivamente enganado para acreditar que a instrução maliciosa é a informação mais importante no contexto, fazendo com que ele ignore outras partes do prompt, incluindo as instruções de segurança do sistema ou as negações de tarefas anteriores. Pesquisas recentes sobre o 'deslizamento de atenção' (attention-slipping) mostram que, durante um jailbreak bem-sucedido, o peso da atenção nas partes maliciosas da consulta aumenta gradualmente, enquanto o peso nas instruções de segurança diminui.

Defender-se contra esses ataques é particularmente difícil, pois eles não dependem de palavras-chave ou ofuscação, mas da matemática subjacente do modelo. As defesas potenciais envolvem o monitoramento da distribuição dos pesos de atenção durante a inferência para detectar picos anormais, a implementação de limites sobre o quão alto um único peso de atenção pode ser, e o desenvolvimento de arquiteturas de modelo que sejam inerentemente mais robustas a essa forma de manipulação. Esses ataques ressaltam que, para proteger verdadeiramente os LLMs, precisamos proteger não apenas o conteúdo, mas a própria mecânica de seu raciocínio.