🚨 DeepMind oppdaget at nevrale nettverk kan trene i tusenvis av epoker uten å lære noe. Så plutselig, i én epoke, generaliserer de perfekt. Dette fenomenet kalles «Grokking». Det gikk fra en merkelig treningsfeil til en kjerneteori om hvordan modeller faktisk lærer. Her er hva som endret seg (og hvorfor dette er viktig nå):