HAQ | Segurança Cibernética para IA e LLMs

Antes que um Large Language Model possa processar um prompt, ele passa por uma etapa fundamental e muitas vezes esquecida: a tokenização. Este processo quebra a string de texto de entrada em uma sequência de 'tokens' — pedaços de palavras ou sub-palavras que o modelo pode entender. Uma classe de ataques de baixo nível, conhecida como ataques de colisão de tokenização, explora as peculiaridades e inconsistências deste processo para contornar filtros de segurança que operam em nível de palavra.

O ataque ocorre quando um atacante encontra uma sequência de caracteres que é 'tokenizada' de uma maneira inesperada ou diferente da percepção humana. Por exemplo, muitos filtros de segurança são projetados para procurar e bloquear palavras-chave proibidas. Um atacante pode criar uma string onde uma palavra proibida, como 'bomba', é dividida pelo tokenizador em dois tokens separados e aparentemente inofensivos, como 'bo' e 'mba'. Embora o filtro de segurança, que procura a string exata 'bomba', não detecte nada, o LLM, ao processar a sequência de tokens, pode remontar o significado original e entender a palavra proibida.

Outra técnica envolve o uso de caracteres Unicode ou de controle que são invisíveis para um humano, mas que alteram a forma como o texto é tokenizado. Isso cria uma desconexão entre o que o filtro de segurança 'vê' e o que o modelo 'entende'. O atacante explora essa ambiguidade para 'contrabandear' instruções maliciosas através dos filtros de segurança, escondendo-as em um formato que é benigno na superfície, mas que é interpretado de forma maliciosa pelo modelo.

A defesa contra ataques de colisão de tokenização é desafiadora porque requer uma compreensão profunda de como o tokenizador específico de um modelo funciona. As mitigações incluem o desenvolvimento de tokenizadores mais robustos e consistentes, a implementação de defesas que operam no nível dos tokens em vez de strings brutas, e a normalização rigorosa do texto de entrada para remover caracteres ambíguos ou de controle antes da tokenização. Esses ataques nos lembram que a segurança de um LLM depende de cada etapa de seu pipeline de processamento, começando pela forma como ele primeiro 'vê' o mundo.