このDeepMindの論文は、AIの安全性に関する最も安心できる嘘を静かに打ち砕いた。 安全性はモデルの挙動に関わるという考えは合理的に聞こえます。また、システムがスケールする瞬間も間違っています。DeepMindは、展開が数百万回のやり取りに到達すると平均が意味を失う理由を示しています。 この論文はAGIの安全性を分布の問題として再定義しています。重要なのは典型的な行動ではありません。尻尾だ。稀な失敗。例外的なケースです。テストでは無視できる低確率の出来事が現実世界では避けられないものになる。 ベンチマーク、レッドチーミング、デモはすべて中間をサンプリングしています。デプロイメントはすべてのサンプルを使います。奇妙なユーザー、奇妙なインセンティブ、敵対的なフィードバックループ、誰も計画していない環境。大規模になると、そうしたケースは珍しくなくなります。保証されています。 ここで不快な洞察があります。進歩はシステムを安全に見せかけながら、ひそかに危険を増す可能性があるということです。能力がテールコントロールよりも速く成長すれば、目に見える故障は減少し、画面外では壊滅的なリスクが積み重なっていきます。 2つのモデルは平均的に見た目が同じでも、最悪の挙動は大きく異なることがあります。現在の評価ではそのギャップが見当たりません。ガバナンスの枠組みはそれが可能だと想定しています。 リスクが配給シフトに存在している限り、有限のテストで安全性を証明することはできません。実際に導入するシステムをテストすることはありません。あなたは自分でコントロールできない未来を試しているのです。 それが本当のオチだ。 AGIの安全性はモデル属性ではありません。これはシステムの問題です。配備の文脈、インセンティブ、監視、そして社会が許容するテールリスクの度合いは、クリーンな平均よりも重要です。 この論文は安心感を与えません。それは幻想を取り除きます。 問題はモデルが通常うまく振る舞うかどうかではありません。 問題は、そうでないときに何が起こるか、そして規模がそれを受け入れられないほどまでに許される頻度がどれだけあるかということです。 論文: