🚨 A DeepMind descobriu que redes neurais podem treinar por milhares de épocas sem aprender nada. Então, de repente, em uma única época, eles se generalizam perfeitamente. Esse fenômeno é chamado de "Grokking". Passou de um bug estranho de treinamento para uma teoria central de como os modelos realmente aprendem. Aqui está o que mudou (e por que isso importa agora):