Es wird beängstigend, wenn die Modelle bei Benchmarks, von denen du dachtest, dass sie Jahre dauern würden, wirklich gut abschneiden. Was meinst du damit, dass Modelle 30-40 % bei ARC AGI 2 erreichen, während sie zu Beginn dieses Jahres kaum 40 % bei ARC AGI 1 erreichen konnten? Ich arbeite seit Jahren mit und an ARC. Dies ist ein beispielloser Fortschritt, selbst beim Training auf einem Testset.