🚨 DeepMind 發現神經網絡可以訓練數千個時期而不學到任何東西。 然後突然,在一個時期內,它們完美地進行了概括。 這種現象被稱為「Grokking」。 它從一個奇怪的訓練故障變成了模型實際學習的核心理論。 這裡是發生了什麼變化(以及為什麼這現在很重要):