興味深い論文ですね!LLMトレーニングにおけるロジットの発散を、出力埋め込みを平均を差し引いて中心化するというシンプルな修正で対処します。理論は正しい、洗練された解決策です! 🔗