🚨 DeepMind menemukan bahwa jaringan saraf dapat berlatih selama ribuan zaman tanpa mempelajari apa pun. Kemudian tiba-tiba, dalam satu zaman, mereka menggeneralisasi dengan sempurna. Fenomena ini disebut "Grokking". Itu berubah dari kesalahan pelatihan yang aneh menjadi teori inti tentang bagaimana model benar-benar belajar. Inilah yang berubah (dan mengapa ini penting sekarang):