埋め込みパラメータが再び熱くなり、LongCat Flashの素晴らしい論文とDeepSeekのEngramと同時期に登場! エングラムとの違い: - >層ごとの埋め込みがない(層ごとの埋め込み(PLE)を試みましたが、実質的な効果はありませんでした) - Engramの動的コンテキスト認識ゲーティングの代わりに、単純な平均化融合> - >埋め込みは入力層のみ(Engramのより深い層注入とは対照的) エングラムと同じです: - 衝突を減らすための複数のハッシュサブテーブル> - MoEとNグラムの割り当てに関する類似のU字型スケーリング法則> ->高希薄さ(MoEが収穫逓減に達する時)にのみ有益です。 その他の主要な発見: - >幅広モデルの恩恵が大きい;より深いモデルでは収穫逓減が見られます - >は埋め込み出力(√Dまたはレイヤーノルム)を増幅し、第一注意層による溺れを防ぐ必要があります - >語彙サイズは基本語彙の整数倍(衝突スパイク)を避けなければなりません。 -埋め込みに> ≤50%のパラメータが割り当てられ、それ以外は純粋なMoEが勝つ ->推測的復号との良い相乗効果