每次看到新的“最先进”基准分数时,我都会进行一个简单的思想实验。如果AI是货币,那么MMLU上的每一个准确度点都是一个薪资决定、一个信用额度、一笔交易、一项临床标记。今天的基准测试把模型当作考试周的学生。MMLU达到88%,HumanEval达到某个百分比,竞技场胜率,但几乎没有人问一个在模型实际进行有偿工作时重要的问题。这个确切的大脑,在这个确切的状态下,是否正确地产生了这个答案? 我们已经知道忽视这一层会发生什么。在2021-2022年的芯片短缺期间,曾经“足够好”的供应链模型突然崩溃。它们继续推荐在经济上毫无意义的计划,因为世界在它们之下发生了变化,而没有人能及时注意到。最近,Claude用户发现,在Anthropic承认有三个独立的基础设施错误悄悄地破坏了响应之前,输出质量下降了数周。许多这样的案例被方便地(几乎是太方便了)忽视了。 在Ambient,我们开始将其视为可以测量的东西。我们自己的Gradeschool Math实验采用简单的算术,展示前沿模型在它们应该视为基本任务的任务上摇摆的频率。一旦你看到一些“AI收入”幻灯片在没有一个兄弟幻灯片的情况下显得不完整:一个用于验证推理(我用简单的术语定义为能够证明哪个模型、哪个权重在什么时间回答了哪个提示)。如果AI要在薪资、风险和运营中占据中心位置,基准测试就必须成熟,而准确性是入场券。在经济激励下的可验证行为才是真正的考试。