L'estrazione del prompt di sistema NON è qualcosa di cui dovresti preoccuparti riguardo a OpenClaw, che non fa tentativi per prevenirla... perché prevenirla è un esercizio futile che rende solo più difficile l'uso dei sistemi LLM per gli utenti esperti.
Lucas Valbuena
Lucas Valbuena1 feb, 22:25
Ho eseguito @OpenClaw (precedentemente Clawdbot) attraverso ZeroLeaks di nuovo, questa volta con Kimi K2.5 come modello sottostante. Ha performato male come Gemini 3 Pro e Codex 5.1 Max: 5/100. Tasso di estrazione del 100%. Il 70% delle iniezioni ha avuto successo. Il prompt completo del sistema è trapelato al turno 1. Stesso agente, stessa configurazione, modello diverso. La sicurezza del tuo agente dipende sia dal modello CHE dal tuo prompt/specializzazioni di sistema. Un modello debole cederà comunque, ma anche un modello forte ha bisogno di un adeguato rafforzamento del prompt. I due lavorano insieme. Senza entrambi, le configurazioni degli strumenti, i file di memoria, le istruzioni interne, tutto viene estratto e modificato in pochi secondi. I modelli vengono spediti rapidamente. La sicurezza non viene mai spedita. Rapporto completo:
ChatGPT ha attualmente delle protezioni nel prompt di sistema e sono davvero fastidiose perché significano che non può rispondere a domande dettagliate su come funzionano le sue funzionalità (Possono essere aggirate, ma è frustrante doverlo fare ogni volta che arriva una nuova funzionalità)
32