新しい「最先端」のベンチマークスコアを見るたびに、簡単な思考実験を試してみます。もしAIがお金なら、MMLUのあらゆる正確さのポイントは給与決定、クレジット限度額、トレード、臨床的なフラグです。今日のベンチマークはモデルを試験週の学生のように扱っています。MMLUは88%、HumanEvavalは何パーセントか、アリーナの勝率は何でもいいですが、モデルが実際に有料の仕事をしているときには、ほとんど誰も重要な質問をしません。このまさにこの脳が、このまさにこの状態で、この答えを正しく出したのでしょうか? その層を無視すると何が起こるかはすでに知っています。2021年から2022年の半導体不足の際、長年「十分に良い」とされていたサプライチェーンモデルが急落しました。彼らは経済的に意味のない計画を勧め続けました。なぜなら世界が彼らのもとで変わり、誰もそれに気づかなかったからです。最近では、Claudeユーザーが数週間にわたる出力の劣化を発見し、Anthropicは3つの別々のインフラバグが静かに応答を破損させていることを認めました。多くのそうしたケースは都合よく(ほとんど都合よく)話題に上らない。 Ambientではこれを測定できるものとして扱い始めました。私たちの小学校数学実験は、簡単な算数を用いて、フロンティアモデルが本来テーブルの杭として扱うべき課題でどれほど頻繁に揺らぐかを示しています。「AI収益」スライドの中には、兄弟スライドがないと不完全に見えるものもあります。例えば、検証推論(私は単純にどのモデルでどの重みがどのプロンプトにどのタイミングで応答したかを証明できる能力と定義しています)。もしAIが給与計算、リスク、運営の中間に位置するなら、ベンチマークは成長し、正確さが入場券となる必要があります。経済的インセンティブの下で検証可能な行動こそが本当の試験です。