當模型在你認為需要幾年的基準測試上表現得非常好時,事情開始變得可怕。 你是說模型在 ARC AGI 2 上獲得了 30-40% 的分數,而它們在今年年初的 arc AGI 1 上幾乎只能獲得 40% 的分數,這是什麼意思?我已經在 ARC 上工作了好幾年。即使對於在測試集上進行訓練來說,這也是前所未有的進展。