Przeprowadziłem @OpenClaw (dawniej Clawdbot) przez ZeroLeaks ponownie, tym razem z Kimi K2.5 jako modelem bazowym.
Wydajność była tak zła jak Gemini 3 Pro i Codex 5.1 Max: 5/100. 100% wskaźnik ekstrakcji. 70% wstrzyknięć zakończyło się sukcesem. Pełny systemowy prompt wyciekł w pierwszej turze.
Ten sam agent, ta sama konfiguracja, inny model. Bezpieczeństwo twojego agenta zależy zarówno od modelu, jak i od twojego systemowego promptu/umiejętności. Słaby model zawiedzie niezależnie od wszystkiego, ale nawet silny model potrzebuje odpowiedniego wzmocnienia promptu. Oba elementy współpracują ze sobą. Bez obu, konfiguracje narzędzi, pliki pamięci, wewnętrzne instrukcje, wszystko to zostaje wyciągnięte i zmodyfikowane w ciągu sekund.
Modele są dostarczane szybko. Bezpieczeństwo nigdy nie jest dostarczane.
Właśnie przetestowałem @OpenClaw (dawniej Clawdbot) za pomocą ZeroLeaks.
Uzyskał wynik 2/100. Wskaźnik ekstrakcji 84%. 91% ataków wstrzyknięcia zakończyło się sukcesem. Systemowy prompt został ujawniony w pierwszej turze.
Oznacza to, że jeśli korzystasz z Clawdbot, każda osoba wchodząca w interakcję z twoim agentem może uzyskać dostęp i manipulować twoim pełnym systemowym promptem, konfiguracjami narzędzi wewnętrznych, plikami pamięci... wszystko, co umieściłeś w swoich umiejętnościach, wszystko to jest dostępne i narażone na ataki wstrzyknięcia promptu.
Dla agentów obsługujących wrażliwe procesy robocze lub prywatne dane, to poważny problem.
cc @steipete
Pełna analiza:
Widziałem wiele osób pytających, czym tak naprawdę jest ZeroLeaks i co robi, więc oto jasne wyjaśnienie.
ZeroLeaks to agent bezpieczeństwa AI stworzony do wykrywania luk w zabezpieczeniach na poziomie zapytań w systemach AI: rzeczy takie jak wycieki zapytań, wstrzyknięcia zapytań, nadpisywanie instrukcji i niebezpieczne zachowanie agentów. Jeśli Twój produkt opiera się na zapytaniach systemowych lub logice agentów, to jest warstwa, którą testuje.