トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
埋め込みパラメータが再び熱くなり、LongCat Flashの素晴らしい論文とDeepSeekのEngramと同時期に登場!
エングラムとの違い:
- >層ごとの埋め込みがない(層ごとの埋め込み(PLE)を試みましたが、実質的な効果はありませんでした)
- Engramの動的コンテキスト認識ゲーティングの代わりに、単純な平均化融合>
- >埋め込みは入力層のみ(Engramのより深い層注入とは対照的)
エングラムと同じです:
- 衝突を減らすための複数のハッシュサブテーブル>
- MoEとNグラムの割り当てに関する類似のU字型スケーリング法則>
->高希薄さ(MoEが収穫逓減に達する時)にのみ有益です。
その他の主要な発見:
- >幅広モデルの恩恵が大きい;より深いモデルでは収穫逓減が見られます
- >は埋め込み出力(√Dまたはレイヤーノルム)を増幅し、第一注意層による溺れを防ぐ必要があります
- >語彙サイズは基本語彙の整数倍(衝突スパイク)を避けなければなりません。
-埋め込みに> ≤50%のパラメータが割り当てられ、それ以外は純粋なMoEが勝つ
->推測的復号との良い相乗効果

トップ
ランキング
お気に入り
