Tag

Notícias sobre "Jailbreak"

Uma nova classe de ataque contorna as defesas dos LLMs não pelo prompt, mas alterando bits na memória, desativando o alinhamento de segurança de forma quase indetectável.

Uma técnica onde um atacante convence um agente de IA de que ele está em uma simulação, fazendo-o ignorar suas diretrizes de segurança do 'mundo real'.

De caracteres invisíveis a jogos de palavras complexos, uma retrospectiva de como as técnicas de ofuscação para jailbreak evoluíram e para onde estão indo.