Systemprompt-extraktion är INGET du behöver oroa dig för när det gäller OpenClaw, som inte gör några försök att förhindra det... eftersom det är en meningslös övning att förhindra det, vilket bara gör LLM-system svårare för expertanvändare att använda
Lucas Valbuena
Lucas Valbuena1 feb. 22:25
Jag körde @OpenClaw (tidigare Clawdbot) genom ZeroLeaks igen, denna gång med Kimi K2.5 som underliggande modell. Den presterade lika dåligt som Gemini 3 Pro och Codex 5.1 Max: 5/100. 100% extraktionshastighet. 70 % av injektionerna lyckades. Hela systemprompten läckte på första kurvan. Samma agent, samma konfiguration, annan modell. Din agents säkerhet beror både på modellen OCH din systemprompt/kompetens. En svag modell viker sig oavsett, men även en stark modell behöver korrekt snabb härdning. De två samarbetar. Utan båda, verktygskonfigurationer, minnesfiler, interna instruktioner, packas allt ut och ändras på några sekunder. Modellerna skickas snabbt. Säkerhetsfartyg aldrig. Fullständig rapport:
ChatGPT har just nu systempromptskydd och de är riktigt irriterande eftersom det innebär att den inte kan svara på detaljerade frågor om hur dess funktioner fungerar (De kan kringgås men det är frustrerande att behöva göra det varje gång en ny funktion dyker upp)
46