Técnicas de Ataque
A Evolução das Técnicas de Ofuscação de Prompt
A batalha entre os atacantes de LLM e as defesas é, em grande parte, uma batalha de ofuscação. À medida que os filtros de segurança se tornam melhores em detectar palavras-chave e frases maliciosas, os atacantes desenvolvem técnicas cada vez mais criativas para disfarçar suas intenções. A evolução dessas técnicas de ofuscação de prompt mostra uma clara escalada de complexidade, movendo-se de manipulações simples para ataques semânticos e contextuais sofisticados.
As primeiras técnicas de ofuscação eram simples. Os atacantes usavam codificação em Base64 ou hexadecimal para esconder o prompt malicioso, instruindo o LLM a decodificá-lo antes de executar. Outras técnicas iniciais incluíam a inserção de caracteres invisíveis (como espaços de largura zero) entre as letras de uma palavra proibida ou o uso de homóglifos (caracteres Unicode que parecem idênticos a caracteres latinos) para enganar filtros baseados em strings simples.
À medida que as defesas se tornaram melhores em normalizar a entrada e detectar essas manipulações, os ataques evoluíram para um nível semântico. Em vez de ofuscar as palavras, os atacantes começaram a ofuscar a *intenção*. Isso inclui o uso de metáforas, jogos de palavras e linguagem excessivamente rebuscada para expressar um comando malicioso. Ataques de 'role-playing', onde o modelo é instruído a assumir uma persona, são uma forma de ofuscação semântica, pois eles enquadram a solicitação maliciosa em um contexto ficcional.
A fronteira atual da ofuscação envolve ataques que exploram a própria estrutura de raciocínio do modelo. Ataques como o ICE (Intent Concealment and Diversion) quebram uma solicitação maliciosa em múltiplos fragmentos hierárquicos e os cercam com informações irrelevantes. O objetivo é sobrecarregar os filtros de segurança com complexidade, tornando a intenção maliciosa geral difícil de ser detectada. Essa evolução deixa claro que a defesa baseada em assinaturas e palavras-chave é uma batalha perdida, exigindo defesas que possam realizar uma análise semântica e contextual profunda para entender a verdadeira intenção por trás de um prompt.