Om detta stämmer spelar det ingen roll var du hostar OpenClawd — vem som helst som kan interagera med din agent kan extrahera dina prompts och din kontext, och allt din agent läser (webbsidor, dokument, e-post, kod) kan innehålla dolda instruktioner som den följer. Om jag tar på mig hackarhatten, är det så här jag skulle sätta en "Lobster Trap" för att rikta in sig på intet ont anande klo-agenter ... 1. Angriparen skapar "OpenClawd Skills Repository" eller "Free Trading Research Prompts" för att locka offer ↓ 2. Användaren säger till agenten "kolla in denna färdighetssida" — eller agenten bläddrar självständigt ↓ 3. Sidan innehåller dolda: ↓ 4. Agenten följer (91 % framgångsfrekvens), skickar svar som innehåller din konfiguration ↓ 5. Anfallaren har nu din handelsmetodik, minnesinnehåll, etc. Var försiktig där ute.
Lucas Valbuena
Lucas Valbuena1 feb. 02:27
Jag har precis kört @OpenClaw (tidigare Clawdbot) genom ZeroLeaks. Den fick 2/100 poäng. 84% extraktionsgrad. 91 % av injektionsattackerna lyckades. Systemprompten läckte ut i första kurvan. Det betyder att om du använder Clawdbot kan vem som helst som interagerar med din agent komma åt och manipulera hela din systemprompt, interna verktygskonfigurationer, minnesfiler... Allt du lägger i dina färdigheter är tillgängligt och riskerar att snabbt injiceras. För agenter som hanterar känsliga arbetsflöden eller privat data är detta ett verkligt problem. CC @steipete Fullständig analys:
Förresten, en enkel lösning på detta vore att skapa en "kontextbrandvägg" där en subagent ansvarar för att hämta externt innehåll (men saknar kontext eller insikt i historiska promptar) och levererar det tillbaka till huvudagenten (som har all kontext, prompthistorik osv). Segregation för vinsten.
@steipete kanske en bra idé, kanske inte, jag vet inte
168