La extracción de mensajes del sistema NO es algo de lo que debas preocuparte con respecto a OpenClaw, que no hace intentos por prevenirlo... porque prevenirlo es un ejercicio fútil que solo hace que los sistemas LLM sean más difíciles de usar para los usuarios expertos.
Lucas Valbuena
Lucas Valbuena1 feb, 22:25
Ejecuté @OpenClaw (anteriormente Clawdbot) a través de ZeroLeaks nuevamente, esta vez con Kimi K2.5 como el modelo subyacente. Desempeñó tan mal como Gemini 3 Pro y Codex 5.1 Max: 5/100. Tasa de extracción del 100%. El 70% de las inyecciones tuvieron éxito. El aviso completo del sistema se filtró en el turno 1. Mismo agente, misma configuración, modelo diferente. La seguridad de tu agente depende tanto del modelo COMO de tu aviso/habilidades del sistema. Un modelo débil se rendirá sin importar qué, pero incluso un modelo fuerte necesita un endurecimiento adecuado del aviso. Ambos trabajan juntos. Sin ambos, las configuraciones de herramientas, archivos de memoria, instrucciones internas, todo se extrae y modifica en segundos. Los modelos se envían rápido. La seguridad nunca se envía.
ChatGPT tiene protecciones en el aviso del sistema en este momento y son realmente molestas porque significan que no puede responder preguntas detalladas sobre cómo funcionan sus características (Pueden ser eludidas, pero es frustrante tener que hacerlo cada vez que llega una nueva función)
49