Voltar para todas as notícias

Técnicas de Ataque

Ataques de Corrupção de Estado em Agentes de IA

10 de Novembro, 2025

À medida que as aplicações de IA evoluem de chatbots simples para agentes autônomos com memória e estado, uma nova classe de ataques de sabotagem se torna possível: os ataques de corrupção de estado. O objetivo desses ataques não é roubar dados ou contornar uma regra de segurança, mas sim manipular a memória interna ou o estado do agente para levá-lo a um estado de erro, confusão ou loop infinito, resultando em uma negação de serviço funcional.

Agentes de IA com estado mantêm um histórico da conversa e de suas ações anteriores para informar suas decisões futuras. Um ataque de corrupção de estado explora essa memória. Um atacante pode, através de uma série de interações cuidadosamente elaboradas, identificar uma sequência de prompts ou ações que levam o agente a um estado inconsistente ou confuso do qual ele não consegue se recuperar. Por exemplo, o atacante pode descobrir que fazer duas perguntas contraditórias em rápida sucessão faz com que o agente entre em um loop, tentando reconciliar a contradição.

Uma vez que o agente está nesse estado corrompido, ele pode se tornar incapaz de responder a usuários legítimos, ou pode começar a consumir recursos de CPU e memória em um loop infinito, levando a uma degradação do serviço e a altos custos operacionais para a organização. Em essência, o atacante não está derrubando o servidor, mas está quebrando a lógica da aplicação, tornando-a inútil.

A defesa contra a corrupção de estado requer um design de agente robusto e testes de resiliência. Os desenvolvedores precisam implementar 'circuit breakers' no código do agente — mecanismos que detectam se o agente está em um loop ou se seu estado se tornou inválido e o forçam a reiniciar para um estado limpo. Além disso, os testes de segurança para agentes de IA devem incluir 'fuzzing' conversacional, onde o agente é bombardeado com sequências de prompts aleatórias e inesperadas para descobrir e corrigir esses estados de erro antes que um atacante o faça.