🚨 DeepMindは、ニューラルネットワークが何千もの時代にわたって何も学習せずに訓練できることを発見しました。 そして突然、ある時代に完璧に一般化します。 この現象は「グロッキング」と呼ばれます。 奇妙なトレーニングのバグから、モデルが実際にどのように学習するかの核心理論へと変わっていきました。 何が変わったのか(そしてなぜ今これが重要なのか)を説明します: