この研究論文は、なぜ「アライズドAI」が実際の企業内で失敗し続けるのかを明らかにします。 企業はアライメントを、一度スイッチを入れればすぐに進む、まるで普遍的なスイッチのように語ります。この論文は、LLMがデモを離れて組織に入る瞬間にその信念が崩れる理由を示しています。 著者らは、単純だが無視されている現実を基盤とした枠組み「COMPASS」を紹介します。すなわち、企業は一般的な安全ルールで運営されているわけではありません。例外、条件付き、エッジケース、矛盾するインセンティブが詰まった内部ポリシースタック上で運営されています。 ほとんどのLLM評価ではこの点が全く見落とされています。 モデルは通常、抽象的な倫理、プラットフォームルール、または公開ベンチマークに基づいてテストされます。実際の組織は、コンプライアンスマニュアル、エスカレーション経路、法的制約、ブランドルール、運用上のプレイブックに基づいていますが、それらはイエスかノーの判断にきれいに当てはまりません。 COMPASSは、その混沌の中でモデルが機能するかどうかをテストします。 政策文言を認めるかどうかではなく、正しい状況と正しい理由で正しいルールを適用できるかどうかです。 このフレームワークは、ほとんどのベンチマークが無視する能力に焦点を当てています。複数のポリシーが存在する場合、モデルは正しいポリシーを選択できますか?曖昧な条項や例外を解釈し、包括的な拒否に切り替えるのではなく、組織が期待する形で紛争を解決できるのか?自信を持って聞こえるのではなく、政策文言を指摘して決定を正当化できるのでしょうか? 最も不快な結果はこうです。ほとんどの失敗は知識の欠落が原因ではありません。 彼らは論理的に失敗していた。 モデルは正しいポリシーにアクセスできながらも、間違ったセクションを適用したり、制約を無視したり、制限を過度に一般化したり、ビジネス目標に反する保守的な答えを選んだりすることが多かったです。外から見ると、その回答は「安全」に見えます。内部から見ると、彼らは運用上間違っている。 だからこそ、モデルは公開ベンチマークをクリアしても、導入時に失敗するのです。 彼らは特定の誰にも属していません。 より深い意味合いは戦略的なものです。アライメントは移行しません。自動車メーカー、銀行、病院、政府機関向けのモデルは、より良いプロンプトを持つモデルではありません。4つの別々のアライメント問題です。 COMPASSはアライメントを解決すると主張していません。企業にとってより価値のあることをします。それによってずれが測定可能になります。 ...