顯然 Opus 4.5 已經記住了 hendrycks MATH(包括測試集)以及所有之前的 AIME。這個模型在不進行任何推理的情況下,直接給出數字時正確率大約在 80-90% 之間。 這讓在數學數據集上進行實驗變得很煩人...