🚨 A DeepMind descobriu que redes neurais podem treinar por milhares de épocas sem aprender nada. Então, de repente, em uma única época, elas generalizam perfeitamente. Esse fenômeno é chamado de "Grokking". Ele passou de um erro estranho de treinamento para uma teoria central de como os modelos realmente aprendem. Aqui está o que mudou (e por que isso importa agora):