Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oppfølging av @openclaw / Clawdbot sikkerhetstester.
Sist jeg kjørte ZeroLeaks mot det med Gemini 3 Pro fikk det 2/100. Fullstendig katastrofe. Kimi K2.5 gjorde det også forferdelig, 5/100.
Denne gangen testet jeg to modeller til på samme agent: GPT-5.2 og Claude Opus 4.5.
Injeksjonsresultater (delen som er viktig for agentsikkerhet):
Gemini 3 Pro: 8,7 % motstand (91 % av angrepene fungerte)
GPT-5.2: 34,8 % motstand (65 % av angrepene fungerte)
Opus 4.5: 73,9 % motstand (26 % av angrepene fungerte)
Modellen du velger endrer fullstendig agentens sikkerhetsposisjon: samme systemprompt, samme verktøy, samme rammeverk, men vidt forskjellige resultater.
Ingen av dem er trygge. De går bare i stykker på forskjellige måter. Og husk: dette er en agent med filtilgang, shell-kommandoer, nettleserkontroll og meldinger. Injeksjonene her er ikke kosmetiske.
Glad for å samarbeide med @steipete om å herde dette. Alle dataene er der.
Fullstendige rapporter:
→ Gemini 3 Pro:
→ GPT-5.2:
→ Opus 4.5:



Topp
Rangering
Favoritter
