🚨 DeepMind zjistil, že neuronové sítě mohou trénovat tisíce epoch, aniž by se něco naučily. Pak najednou, v jedné epoše, se dokonale zobecňují. Tento jev se nazývá "Grokking". Z podivného tréninkového glitche se to změnilo na základní teorii o tom, jak se modely skutečně učí. Tady je, co se změnilo (a proč je to teď důležité):