🚨 DeepMind 发现神经网络可以训练数千个周期而不学习任何东西。 然后突然,在一个周期内,它们完美地概括了。 这种现象被称为 "Grokking"。 它从一个奇怪的训练故障变成了模型实际学习的核心理论。 以下是发生了什么变化(以及这现在为什么重要):