Interesujący artykuł! Zajmuje się zbieżnością logitów w treningu LLM z prostym rozwiązaniem: centrowanie osadzeń wyjściowych poprzez odjęcie ich średniej. Teoria się zgadza, schludne i eleganckie rozwiązanie! 🔗