İlginç bir makale! LLM eğitiminde logit divergensiyasını basit bir çözümle ele alır: çıktı gömülmelerini ortalamalarını ortalamalarıyla çıkarmak. Teori doğru, güzel ve zarif bir çözüm! 🔗