L'extraction de l'invite système n'est pas quelque chose dont vous devriez vous inquiéter en ce qui concerne OpenClaw, qui ne fait aucune tentative pour l'empêcher... car l'empêcher est un exercice futile qui rend simplement les systèmes LLM plus difficiles à utiliser pour les utilisateurs experts.
Lucas Valbuena
Lucas Valbuena1 févr., 22:25
J'ai passé @OpenClaw (anciennement Clawdbot) à nouveau par ZeroLeaks, cette fois avec Kimi K2.5 comme modèle sous-jacent. Il a performé aussi mal que Gemini 3 Pro et Codex 5.1 Max : 5/100. Taux d'extraction de 100 %. 70 % des injections ont réussi. Le prompt système complet a fuité au tour 1. Même agent, même configuration, modèle différent. La sécurité de votre agent dépend à la fois du modèle ET de votre prompt système/compétences. Un modèle faible pliera peu importe quoi, mais même un modèle fort a besoin d'un durcissement approprié du prompt. Les deux fonctionnent ensemble. Sans les deux, les configurations d'outils, les fichiers mémoire, les instructions internes, tout cela est extrait et modifié en quelques secondes. Les modèles sont expédiés rapidement. La sécurité, jamais.
ChatGPT a actuellement des protections dans son prompt système et c'est vraiment ennuyeux car cela signifie qu'il ne peut pas répondre à des questions détaillées sur le fonctionnement de ses fonctionnalités (Ils peuvent être contournés mais c'est frustrant de devoir faire cela chaque fois qu'une nouvelle fonctionnalité arrive)
38