Znovu jsem spustil @OpenClaw (dříve Clawdbot) přes ZeroLeaks, tentokrát s Kimi K2.5 jako základním modelem.
Fungoval stejně špatně jako Gemini 3 Pro a Codex 5.1 Max: 5/100. 100% úspěšnost extrakce. 70 % injekcí bylo úspěšných. Celý systémový prompt unikl v prvním tahu.
Stejný agent, stejná konfigurace, jiný model. Bezpečnost vašeho agenta závisí jak na modelu, tak na vašem systémovém promptu/dovednostech. Slabý model se složí bez ohledu na cokoli, ale i silný model potřebuje správné rychlé zpevnění. Oba spolupracují. Bez obou – konfigurací nástrojů, paměťových souborů nebo interních instrukcí – se to všechno během pár sekund extrahuje a upravuje.
Modely se rychle dorazí. Bezpečnostní lodě nikdy.
Úplná zpráva:
Právě jsem @OpenClaw (dříve Clawdbot) prošel přes ZeroLeaks.
Získal 2/100. 84% míra extrakce. 91 % injekčních útoků bylo úspěšných. Systémový prompt unikl v prvním kole.
To znamená, že pokud používáte Clawdbot, kdokoli, kdo komunikuje s vaším agentem, může přistupovat k celému systémovému promptu, interním konfiguracím nástrojů, paměťovým souborům... Všechno, co do svých dovedností vložíte, je dostupné a rizikové okamžité injekce.
Pro agenty, kteří zpracovávají citlivé pracovní postupy nebo soukromá data, je to skutečný problém.
cc @steipete
Úplná analýza:
Viděl jsem hodně lidí, kteří se ptají, co ZeroLeaks vlastně je a co dělá, takže tady je jasné rozbor.
ZeroLeaks je bezpečnostní agent s umělou inteligencí vytvořený k nalezení zranitelností na úrovni promptů v AI systémech: například úniky promptů, promptové injekce, přepsání instrukcí a nebezpečné chování agentů. Pokud váš produkt spoléhá na systémové prompty nebo logiku agenta, testuje právě tuto vrstvu.