Mielenkiintoinen artikkeli! Se ratkaisee logit-divergenssin LLM-koulutuksessa yksinkertaisella ratkaisulla: keskittää lähtöupotukset vähentämällä niiden keskiarvo. Teoria pitää paikkansa, siisti ja elegantti ratkaisu! 🔗