Zajímavý článek! Řeší divergenci logitů při trénování LLM jednoduchým řešením: centrovat výstupní vložení odečtením jejich průměru. Teorie sedí, je to pěkné a elegantní řešení! 🔗