Modeller yıllar süreceğini düşündüğünüz benchmarklarda çok iyi performans göstermeye başlayınca bu durum korkutucu olmaya başlıyor. Yani modeller ARC AGI 2'de %30-40 alıyor, oysa bu yılın başında arc AGI 1'de zar zor %40 alabiliyorlardı. Yıllardır ARC ile ve üzerinde çalışıyorum. Bu, test setinde eğitim için bile eşi benzeri görülmemiş bir ilerleme