Systemprompt-ekstrakt er IKKE noe du bør bekymre deg for når det gjelder OpenClaw, som ikke gjør noe forsøk på å forhindre det... fordi det å forhindre det er en fåfengt øvelse som bare gjør LLM-systemer vanskeligere for eksperter å bruke
Lucas Valbuena
Lucas Valbuena1. feb., 22:25
Jeg kjørte @OpenClaw (tidligere Clawdbot) gjennom ZeroLeaks igjen, denne gangen med Kimi K2.5 som underliggende modell. Den presterte like dårlig som Gemini 3 Pro og Codex 5.1 Max: 5/100. 100 % ekstraksjonsrate. 70 % av injeksjonene lyktes. Full system-prompten lekket på sving 1. Samme agent, samme konfigurasjon, annen modell. Agentens sikkerhet avhenger både av modellen OG systemets prompt/ferdigheter. En svak modell vil folde seg uansett, men selv en sterk modell trenger riktig prompt-herding. De to jobber sammen. Uten begge deler, verktøykonfigurasjoner, minnefiler, interne instruksjoner, blir alt pakket ut og endret på sekunder. Modellene sendes raskt. Sikkerhetsskip aldri. Full rapport:
ChatGPT har systemprompt-beskyttelse for øyeblikket, og de er veldig irriterende fordi det betyr at den ikke kan svare på detaljerte spørsmål om hvordan funksjonene fungerer (De kan omgås, men det er frustrerende å måtte gjøre det hver gang en ny funksjon kommer)
41