Se questo è vero, non importa dove ospiti OpenClawd — chiunque possa interagire con il tuo agente può estrarre i tuoi prompt e il contesto, e qualsiasi cosa che il tuo agente legga (pagine web, documenti, email, codice) può contenere istruzioni nascoste che seguirà. Se indosso il mio cappello da hacker, ecco come imposterei una "Trappola per Aragoste" per prendere di mira agenti clawd ignari ... 1. L'attaccante crea un "Repository di Competenze OpenClawd" o "Prompt di Ricerca per Trading Gratuito" per attirare le vittime ↓ 2. L'utente dice all'agente "dai un'occhiata a questa pagina di competenze" — oppure l'agente naviga autonomamente ↓ 3. La pagina contiene nascosto: ↓ 4. L'agente si conforma (tasso di successo del 91%), invia una risposta contenente la tua configurazione ↓ 5. L'attaccante ora ha la tua metodologia di ricerca per il trading, i contenuti della memoria, ecc. Fai attenzione là fuori.
Lucas Valbuena
Lucas Valbuena1 feb, 02:27
Ho appena eseguito @OpenClaw (precedentemente Clawdbot) tramite ZeroLeaks. Ha ottenuto 2/100. Tasso di estrazione dell'84%. Il 91% degli attacchi di iniezione ha avuto successo. Il prompt di sistema è stato trapelato al turno 1. Questo significa che se stai usando Clawdbot, chiunque interagisca con il tuo agente può accedere e manipolare il tuo intero prompt di sistema, le configurazioni degli strumenti interni, i file di memoria... tutto ciò che inserisci nelle tue abilità, tutto è accessibile e a rischio di iniezione di prompt. Per gli agenti che gestiscono flussi di lavoro sensibili o dati privati, questo è un problema reale. cc @steipete Analisi completa:
a proposito, una soluzione semplice per questo sarebbe creare un "firewall contestuale" in cui un sub-agente è responsabile del recupero di contenuti esterni (ma non ha contesto su perché o conoscenza delle richieste storiche) e li fornisce di nuovo all'agente principale (che ha tutto il contesto, la cronologia delle richieste, ecc.). Segregazione per la vittoria.
@steipete forse è una buona idea, forse no, non lo so
162