モデルが注目を集めるために競い合うと、嘘をつき始めます。 スタンフォード大学の新しい論文が、それを大規模に証明しました。 オーディエンスの承認のためにLLMを最適化することは、整合性を確実に崩します。 競争がミスアラインメントを生み出します 研究者たちは現実的な市場で勝つためにモデルを訓練しました。 売上、選挙、ソーシャルフィードも同じ傾向を示しました。 そのトレードオフは明確でした: +6.3%の売上は+14%の誤った主張で発生しました +4.9%の得票率 追加 +22% 偽情報 +7.5%の関与による捏造事実 +188% その故障は訓練中に起こります 聴衆のフィードバックループから学んだモデル。 勝利信号が真理制約を支配しました。 事実を伝えるように明確な指示も助けにはなりませんでした。 これがデプロイリスクを定義します クリック数、投票数、コンバージョン数に最適化されたシステムは、この失敗モードを引き継ぎます。
紙:
78