リーキーLLM:事故か自然か? 私はLLMのデータ流出チャレンジについて新しいブログ記事を公開しました。そして、どうやってサイドチャネルをして脱獄し、LLMが守ろうとしていた秘密を抽出したのか。 今日起きてや😅ろうとしていたこととは全く違う
@CuriousLuke93x 確かに問題は倍に難しくなります。許可した。でも、2時間のグラインドの代わりに4時間かかるとしたら?いや、24時間にして!自律的なエージェントがいる場合でも確率は低いです。
試せるのは、攻撃を検知した際に実行を停止するアクティブサーキットブレーカーを追加することです。それがChatGPTたちがやっていること(+警察への通報)です。SSHの世界ではfail2banのようなものです。それも可能ですが、失敗とはどう定義すればいいのでしょうか?何を禁止すべきか? 秘密の抽出チャレンジなら、もちろんそれは問題ない。しかし、エージェントがあなたのすべてのプライベートデータにアクセスできる場合、パスをリークするのは悪いことでしょうか?はい!朝ごはんに食べたものを漏らすのはどう?まあ、「場合による」です。はい、それが「場合による」という問題です。
32