Ich habe @OpenClaw (ehemals Clawdbot) erneut durch ZeroLeaks laufen lassen, diesmal mit Kimi K2.5 als zugrunde liegendem Modell.
Es schnitt genauso schlecht ab wie Gemini 3 Pro und Codex 5.1 Max: 5/100. 100% Extraktionsrate. 70% der Injektionen waren erfolgreich. Der vollständige Systemprompt wurde in Runde 1 geleakt.
Gleicher Agent, gleiche Konfiguration, anderes Modell. Die Sicherheit deines Agents hängt sowohl vom Modell als auch von deinem Systemprompt/Fähigkeiten ab. Ein schwaches Modell wird unabhängig von allem versagen, aber selbst ein starkes Modell benötigt eine ordnungsgemäße Prompt-Härtung. Die beiden arbeiten zusammen. Ohne beides werden Tool-Konfigurationen, Speicherdateien, interne Anweisungen, all das wird in Sekunden extrahiert und modifiziert.
Modelle werden schnell ausgeliefert. Sicherheit wird niemals ausgeliefert.
Vollständiger Bericht:
Ich habe gerade @OpenClaw (ehemals Clawdbot) durch ZeroLeaks laufen lassen.
Es erhielt 2/100. 84% Extraktionsrate. 91% der Injektionsangriffe waren erfolgreich. Der Systemprompt wurde in Runde 1 geleakt.
Das bedeutet, wenn du Clawdbot verwendest, kann jeder, der mit deinem Agenten interagiert, auf deinen vollständigen Systemprompt, interne Toolkonfigurationen, Speicherdateien... alles, was du in deine Fähigkeiten einfügst, zugreifen und es manipulieren. Alles ist zugänglich und gefährdet durch Prompt-Injektionen.
Für Agenten, die mit sensiblen Arbeitsabläufen oder privaten Daten umgehen, ist das ein echtes Problem.
cc @steipete
Vollständige Analyse:
Ich habe viele Leute gesehen, die fragen, was ZeroLeaks eigentlich ist und was es tut, also hier ist eine klare Aufschlüsselung.
ZeroLeaks ist ein AI-Sicherheitsagent, der entwickelt wurde, um Schwachstellen auf der Ebene der Eingabeaufforderungen in AI-Systemen zu finden: Dinge wie Eingabeaufforderungslecks, Eingabeaufforderungsinjektionen, Anweisungsüberschreibungen und unsicheres Agentenverhalten. Wenn Ihr Produkt auf Systemaufforderungen oder Agentenlogik angewiesen ist, ist dies die Schicht, die getestet wird.