Artigo interessante! Ele aborda a divergência logitária no treinamento de LLM com uma solução simples: centralizar os embeddings de saída subtraindo sua média. A teoria bate certo, solução elegante e limpa! 🔗