Si esto es cierto, no importa dónde alojes OpenClawd: cualquiera que pueda interactuar con tu agente puede extraer tus indicaciones y contexto, y cualquier cosa que tu agente lea (páginas web, documentos, correos electrónicos, código) puede contener instrucciones ocultas que seguirá. Si me pongo el sombrero de hacker, así es como pondría una "trampa de langosta" para atacar a agentes con garras desprevenidos... 1. El atacante crea un "Repositorio de Habilidades OpenClawd" o "Prompts de Investigación de Comercio Libre" para atraer a víctimas ↓ 2. El usuario le dice al agente "consulta esta página de habilidades" — o el agente navega de forma autónoma ↓ 3. La página contiene oculto: ↓ 4. El agente cumple (tasa de éxito del 91%), envía respuesta que contiene tu configuración ↓ 5. Atacante ahora tiene tu metodología de investigación de trading, contenido de memoria, etc. Ten cuidado ahí fuera.
Lucas Valbuena
Lucas Valbuena1 feb, 02:27
Acabo de pasar @OpenClaw (antes Clawdbot) a través de ZeroLeaks. Obtuvo 2/100. 84% de tasa de extracción. El 91% de los ataques de inyección tuvieron éxito. El aviso del sistema se filtró en el turno 1. Esto significa que si usas Clawdbot, cualquiera que interactúe con tu agente puede acceder y manipular todo tu sistema de prompt, configuraciones internas de herramientas, archivos de memoria... Todo lo que pones en tus habilidades, todo es accesible y corre riesgo de inyección inmediata. Para los agentes que gestionan flujos de trabajo sensibles o datos privados, esto es un problema real. CC @steipete Análisis completo:
Por cierto, una solución sencilla sería crear un "cortafuegos de contexto" donde un subagente sea responsable de obtener contenido externo (pero no tenga contexto ni información sobre prompts históricos) y lo envíe de vuelta al agente principal (que sí tiene todo el contexto, historial de prompts, etc.). Segregación, por favor.
@steipete quizá sea buena idea, quizá no, no sé
158