Ho eseguito @OpenClaw (precedentemente Clawdbot) attraverso ZeroLeaks di nuovo, questa volta con Kimi K2.5 come modello sottostante.
Ha performato male come Gemini 3 Pro e Codex 5.1 Max: 5/100. Tasso di estrazione del 100%. Il 70% delle iniezioni ha avuto successo. Il prompt completo del sistema è trapelato al turno 1.
Stesso agente, stessa configurazione, modello diverso. La sicurezza del tuo agente dipende sia dal modello CHE dal tuo prompt/specializzazioni di sistema. Un modello debole cederà comunque, ma anche un modello forte ha bisogno di un adeguato rafforzamento del prompt. I due lavorano insieme. Senza entrambi, le configurazioni degli strumenti, i file di memoria, le istruzioni interne, tutto viene estratto e modificato in pochi secondi.
I modelli vengono spediti rapidamente. La sicurezza non viene mai spedita.
Rapporto completo:
Ho appena eseguito @OpenClaw (precedentemente Clawdbot) tramite ZeroLeaks.
Ha ottenuto 2/100. Tasso di estrazione dell'84%. Il 91% degli attacchi di iniezione ha avuto successo. Il prompt di sistema è stato trapelato al turno 1.
Questo significa che se stai usando Clawdbot, chiunque interagisca con il tuo agente può accedere e manipolare il tuo intero prompt di sistema, le configurazioni degli strumenti interni, i file di memoria... tutto ciò che inserisci nelle tue abilità, tutto è accessibile e a rischio di iniezione di prompt.
Per gli agenti che gestiscono flussi di lavoro sensibili o dati privati, questo è un problema reale.
cc @steipete
Analisi completa:
Ho visto molte persone chiedere cosa sia realmente ZeroLeaks e cosa faccia, quindi ecco una chiara spiegazione.
ZeroLeaks è un agente di sicurezza AI progettato per trovare vulnerabilità a livello di prompt nei sistemi AI: cose come perdite di prompt, iniezioni di prompt, sovrascritture di istruzioni e comportamenti non sicuri degli agenti. Se il tuo prodotto si basa su prompt di sistema o logica degli agenti, questo è il livello che sta testando.