Passei @OpenClaw (antigo Clawdbot) pelo ZeroLeaks novamente, desta vez com o Kimi K2.5 como modelo base.
Teve desempenho tão ruim quanto o Gemini 3 Pro e o Codex 5.1 Max: 5/100. Taxa de extração 100%. 70% das injeções tiveram sucesso. O prompt completo do sistema vazou na curva 1.
Mesmo agente, mesma configuração, modelo diferente. A segurança do seu agente depende tanto do modelo quanto do seu prompt/habilidades do sistema. Um modelo fraco vai ceder de qualquer jeito, mas mesmo um modelo forte precisa de um fortalecimento rápido. Os dois trabalham juntos. Sem ambos, configurações de ferramentas, arquivos de memória, instruções internas, tudo é extraído e modificado em segundos.
Modelos são lançados rápido. Naves de segurança nunca.
Relatório completo:
Acabei de rodar @OpenClaw (antigo Clawdbot) pelo ZeroLeaks.
Teve 2/100. 84% de taxa de extração. 91% dos ataques de injeção tiveram sucesso. O prompt do sistema vazou no turno 1.
Isso significa que, se você estiver usando o Clawdbot, qualquer pessoa que interagir com seu agente pode acessar e manipular o prompt completo do seu sistema, configurações internas de ferramentas, arquivos de memória... Tudo o que você coloca em suas habilidades, tudo é acessível e corre risco de injeção rápida.
Para agentes que lidam com fluxos de trabalho sensíveis ou dados privados, isso é um problema real.
CC @steipete
Análise completa:
Vi muitas pessoas perguntando o que é realmente o ZeroLeaks e o que ele faz, então aqui vai uma explicação clara.
ZeroLeaks é um agente de segurança de IA criado para identificar vulnerabilidades em nível de prompt em sistemas de IA: coisas como vazamentos de prompt, injeções de prompt, overrides de instruções e comportamento inseguro de agentes. Se seu produto depende de prompts do sistema ou lógica de agentes, essa é a camada que ele está testando.