🚨 DeepMind odkrył, że sieci neuronowe mogą trenować przez tysiące epok, nie ucząc się niczego. Aż nagle, w jednej epoce, generalizują doskonale. To zjawisko nazywa się "Grokking". Przeszło od dziwnego błędu w treningu do kluczowej teorii tego, jak modele faktycznie się uczą. Oto co się zmieniło (i dlaczego to teraz ma znaczenie):