🚨 DeepMind ha scoperto che le reti neurali possono allenarsi per migliaia di epoche senza apprendere nulla. Poi, all'improvviso, in un'unica epoca, generalizzano perfettamente. Questo fenomeno è chiamato "Grokking". È passato da un bizzarro errore di allenamento a una teoria fondamentale su come i modelli apprendono realmente. Ecco cosa è cambiato (e perché questo è importante ora):