Eu executei @OpenClaw (anteriormente Clawdbot) através do ZeroLeaks novamente, desta vez com o modelo subjacente Kimi K2.5.
Desempenhou tão mal quanto o Gemini 3 Pro e o Codex 5.1 Max: 5/100. Taxa de extração de 100%. 70% das injeções tiveram sucesso. O prompt completo do sistema vazou no turno 1.
Mesmo agente, mesma configuração, modelo diferente. A segurança do seu agente depende tanto do modelo QUANTO do seu prompt/sabedoria do sistema. Um modelo fraco irá falhar não importa o que, mas mesmo um modelo forte precisa de um endurecimento adequado do prompt. Os dois trabalham juntos. Sem ambos, as configurações de ferramentas, arquivos de memória, instruções internas, tudo isso é extraído e modificado em segundos.
Modelos são enviados rapidamente. Segurança nunca é enviada.
Acabei de passar o @OpenClaw (anteriormente Clawdbot) pelo ZeroLeaks.
Ele obteve 2/100. Taxa de extração de 84%. 91% dos ataques de injeção foram bem-sucedidos. O prompt do sistema foi vazado no turno 1.
Isso significa que, se você estiver usando o Clawdbot, qualquer pessoa que interaja com seu agente pode acessar e manipular seu prompt completo do sistema, configurações de ferramentas internas, arquivos de memória... tudo o que você colocou nas suas habilidades, tudo isso é acessível e está em risco de injeção de prompt.
Para agentes que lidam com fluxos de trabalho sensíveis ou dados privados, isso é um problema real.
cc @steipete
Análise completa:
Eu vi muitas pessoas a perguntar o que é realmente o ZeroLeaks e o que ele faz, então aqui está uma explicação clara.
ZeroLeaks é um agente de segurança AI criado para encontrar vulnerabilidades a nível de prompt em sistemas de AI: coisas como vazamentos de prompt, injeções de prompt, sobreposições de instruções e comportamentos inseguros de agentes. Se o seu produto depende de prompts de sistema ou lógica de agentes, esta é a camada que está a testar.