Hârtie interesantă! Abordează divergența logit în antrenamentul LLM cu o soluție simplă: centrează încorporațiile de ieșire prin scăderea mediei lor. Teoria se confirmă, soluție ordonată și elegantă! 🔗