トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
多くの人々は、Minimaxが最近完全に注目を集めたことに混乱しています - 特にそれがハイブリッド線形アテンションへの最初の大規模なピボットであったため - そして、Kimiが後にハイブリッド線形バリアントを採用したこと(およびQwen3-Next、またはQwen3.5による以前の試みも同様です)。私は実際にここでのMinimaxのオープンさを高く評価しています:彼らは、多くの研究室が声に出して言わないマルチホップ推論タスクにおけるハイブリッド線形またはスライディングウィンドウの注意の課題と後悔を認めました。
とはいえ、「後悔」は思ったほど悪くないかもしれません。ミニマックスは非常に単純な線形アテンションバリアントを使用したため(主に当時の評価が不十分だったため)、おそらく性能格差が誇張されたのだろう。継続的な事前トレーニング戦略(つまり、グローバルアテンションからハイブリッドスライディングウィンドウアテンションへの切り替え)も、かなり最適ではないように思われました。そして、ハイブリッド線形アテンションは、マルチホップ推論を除くほぼすべてのベンチマークで依然として非常に強力なパフォーマンスを発揮できます。マルチホップ推論のパフォーマンス低下を十分に小さく保ち、推論効率とデータ効率の向上と引き換えに維持できれば、ハイブリッド線形アテンションにはまだ成長の余地が十分にあります。
より優れた線形複雑度レイヤーは、特に vLLM や SGLang などのフレームワークからインフラストラクチャを改善する場合、検討する価値があります。結局のところ、エージェントモデルがコンテキストの長さによって永遠に制限されることは望ましくありません - それは遅かれ早かれ克服しなければならない制限です
トップ
ランキング
お気に入り

