Zaczyna być przerażająco, gdy modele zaczynają radzić sobie naprawdę dobrze w benchmarkach, które myślałeś, że zajmą lata. Jak to możliwe, że modele osiągają 30-40% w ARC AGI 2, gdy ledwo osiągały 40% w ARC AGI 1 na początku tego roku. Pracuję z ARC i nad ARC od lat. To bezprecedensowy postęp, nawet jak na trening na zbiorze testowym.