🚨 DeepMind обнаружил, что нейронные сети могут обучаться на протяжении тысяч эпох, не усваивая ничего. Затем, внезапно, за одну эпоху они обобщают идеально. Это явление называется "Grokking". Оно превратилось из странного сбоя в обучении в основную теорию того, как модели на самом деле учатся. Вот что изменилось (и почему это важно сейчас):