显然,Opus 4.5 已经记住了 Hendrycks 的 MATH(包括测试集)以及所有之前的 AIMEs。这个模型在没有任何推理的情况下,直接输出数字时正确率大约在 80-90% 之间。 这让在数学数据集上进行实验变得很烦人...