Inizia a diventare spaventoso quando i modelli iniziano a ottenere risultati davvero buoni nei benchmark che pensavi avrebbero richiesto anni. Cosa intendi dire che i modelli stanno ottenendo il 30-40% su ARC AGI 2, quando a malapena riuscivano a ottenere il 40% su ARC AGI 1 all'inizio di quest'anno. Lavoro con e su ARC da anni. Questo è un progresso senza precedenti anche per l'addestramento su un set di test.