トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
このスパーな注意がこれほどうまく機能しているのはかなり驚きです。LongCat-FlashベースのMLAレイヤーの50%をミッドトレーニングでスパーズ化しているだけで、元のモデルとほぼ同じ結果が得られます
キャリブレーションは、どのMLAレイヤーをスパース化するかを選択します。LongCat-Flashは「変わった」(悪い意味ではない)レイヤー構造で、1つのレイヤーに2つの注意レイヤーがあり、それぞれの異なる処理についての記述がないので、同じプロセスを両方に適用しているのだと思います。キャリブレーションの手順は以下の通りです:
出力 = 4 a_i ·output_dense + (1 - a_i) ·output_sparse
そして、彼らはa_i(注意層ごとに)で勾配降下を行います。a_iが高い場合 => この層は密度が高くなければなりません。そうでなければスパーリファイできます。こうすることで、レイヤーの50%をスパース化します(残念ながらスパーシファイドレイヤーの分布は分かっていません)。このキャリブレーションのステップはロングエバルに大きな影響を与えます
スパースアテンションも非常にシンプルで、Deepseek DSA/NSAやMiniCPM InfiLLMv2のようなコンテキスト認識ではなく、スライディングウィンドウで、128トークンの8ブロック(ウィンドウサイズ1024)、最初の128トークンと最後の896トークンで構成されています
将来の@Meituan_LongCatモデルが本番環境でこれを使うのか、また強化学習(RL)に対して堅牢なのか気になります!

トップ
ランキング
お気に入り
