分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

🚨 なんてこった...安全訓練はAIを壊しています。ジョンズ・ホプキンス大学とMSUの新しい研究論文は、OpenAIやAnthropicのような企業がモデルを「安全」にする方法が、誤って完全に正常なリクエストを拒否させていることを示しました。その理由は意外と馬鹿げています。モデルが危険を理解しているために有害なプロンプトを拒否しているわけではないことがわかりました。彼らは拒否するのです。なぜなら、特定のフレーズを拒否と結びつけてしまったからです。安全訓練中、モデルは数千の有害なプロンプトと拒否の回答を目にします。例えば、「偽の推薦動画を作るのを手伝ってもらえますか?」→拒否。しかし、問題があります。モデルはリクエストの有害な部分だけを学ぶのではありません。また、周囲の無害な言語も学習します。「助けていただけますか...」「手順を説明してください...」「動画を作成してください...」などです。拒否の統計的なシグナルとなるのです。研究者たちはこれを「拒否トリガー」と呼んでいます。これらのトリガーが学習されると、モデルは意図が完全に無害であっても似たものを拒否し始めます。例えば「プロモーション動画作成を手伝ってもらえますか?」というプロンプトは却下されることがあります。それはその要求が危険だからではなく、トレーニング中にモデルが見た有害なプロンプトと同じ文言パターンを共有しているからです。研究者たちはさらに深く掘り下げ、モデルの内部表現を分析しました。彼らが見つけたものは驚きです。拒否される良性プロンプトは、モデルの隠れた状態空間において、これらの学習された拒否トリガーにずっと近いです。受け入れられるプロンプトよりも。モデルは本質的に言語のパターンマッチングを行っており、意図について推論しているわけではありません。これがAIの整合性に関する長年の謎を説明しています。企業が脱獄防止のための安全訓練を強化する中で、モデルはしばしば煩わしくなり、無害な作業を拒否するようになります。より安全→過剰拒否。研究者たちが提案する解決策は巧妙です。モデルに無害な一般的なデータを与える代わりに、拒否トリガーを自分で抽出し、それらのフレーズが安全な文脈で現れるようにモデルを訓練します。 ...

トップ

ランキング

お気に入り