Tutti continuano a dire che il scaling del pretraining è finito come se il scaling avesse smesso di funzionare - ma in realtà non ha smesso di funzionare, ha semplicemente iniziato a diventare sempre meno gestibile perché è non lineare, letteralmente come previsto.