🚨 DeepMind upptäckte att neurala nätverk kan träna under tusentals epoker utan att lära sig något. Sedan, plötsligt, under en enda epok, generaliserar de perfekt. Detta fenomen kallas "Grokking". Det gick från en konstig träningsbugg till en kärnteori om hur modeller faktiskt lär sig. Här är vad som förändrades (och varför detta är viktigt nu):