Det begynner å bli skummelt når modellene gjør det veldig bra på benchmarks du trodde ville ta år. Hva mener du med at modellene får 30-40 % på ARC AGI 2, når de knapt klarte 40 % på arc AGI 1, i begynnelsen av dette året. Jeg har jobbet med og på ARC i flere år. Dette er enestående fremgang, selv for trening på et testsett