🚨 DeepMind havaitsi, että neuroverkot voivat harjoitella tuhansia aikakausia oppimatta mitään. Sitten yhtäkkiä, yhdessä aikakaudessa, ne yleistävät täydellisesti. Tätä ilmiötä kutsutaan "Grokkingiksi". Se muuttui oudosta koulutusbugista ydinteoriaksi siitä, miten mallit oikeasti oppivat. Tässä on, mikä muuttui (ja miksi tämä on nyt tärkeää):