🚨 DeepMind a descoperit că rețelele neuronale se pot antrena timp de mii de epoci fără să învețe nimic. Apoi, brusc, într-o singură epocă, se generalizează perfect. Acest fenomen se numește "Grokking". A trecut de la un glitch ciudat de antrenament la o teorie de bază despre cum învață modelele de fapt. Iată ce s-a schimbat (și de ce contează acum):