🚨 DeepMind hat entdeckt, dass neuronale Netzwerke über Tausende von Epochen trainieren können, ohne etwas zu lernen. Dann verallgemeinern sie plötzlich in einer einzigen Epoche perfekt. Dieses Phänomen wird "Grokking" genannt. Es ging von einem seltsamen Trainingsfehler zu einer Kernthese darüber, wie Modelle tatsächlich lernen. Hier ist, was sich geändert hat (und warum das jetzt wichtig ist):