当模型在你认为需要几年才能达到的基准上表现得非常好时,事情开始变得可怕。 你是什么意思,模型在ARC AGI 2上得到了30-40%的分数,而它们在今年年初的arc AGI 1上几乎只能得到40%?我已经在ARC上工作了多年。这对于在测试集上进行训练来说,都是前所未有的进展。