本日、最大のLFM2モデルであるLFM2-24B-A2B 🐘をリリースします > 24Bの総パラメータ > 1トークンあたり23億のアクティブ > ハイブリッドでハードウェア対応のLFM2アーキテクチャを基盤としています LFM2の高速でメモリ効率の高い設計とMixtur of Expertのセットアップを組み合わせており、各実行で23億パラメータのみが有効化されます。 その結果、クラス最高の効率、高速なエッジ推論、予測可能な対数線形スケーリングが32GBの2BアクティブMoEフットプリントで実現されました。 🧵
このリリースにより、LFM2ファミリーはほぼ2桁にわたるLFM2-350MからLFM2-24B-A2Bまで拡大しました。スケールアップのたびに標準的な基準で一貫した品質向上が見られます。 LFM2-24B-A2Bは32GBのRAMに収まるよう設計し、統合グラフィックスプロセッサ(iGPU)と専用ニューラルプロセッサ(NPU)を搭載した消費者向けノートパソコンやデスクトップでも動作可能にしました。 > LFM2-24B-A2Bは、LFM2ファミリーを350Mから24Bパラメータ→拡張します > ベンチマーク間で一貫した対数線形の品質向上があり、ほぼ2桁のスケールを達成しています
スケールレシピ:もっと深く掘り下げてください。専門家を追加しましょう。アクティブパスはスリムに保ちましょう。 LFM2-24B-A2Bを拡大し、24→40層とエキスパートを倍増させ(MoEブロックあたり32→64)、隠れたサイズ(2048)、トップ4ルーティング、注意対変化率を固定しました。 > 総パラメータが3×増加(8.3B→24B) > アクティブパラメータは成長しすぎません ~1.5× (1.5B→2.3B) 推論コストはアクティブパス(パラメータ数の総数ではなく)を追跡し、レイテンシーとエネルギーを実際の展開制約に整合させます。 キャパシティスケール。トークンごとの計算はリーンなままです。
私たちはこれを伝統的なインストラクトモデル(推論痕跡なし)として、軽量なポストトレーニングを使って出荷しました。 横断: > GPQAダイヤモンド > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 品質は3億5千万→24Bへと直数的に向上します。 この約100×のパラメータ範囲は、ハイブリッドLFM2アーキテクチャの予測可能なスケーリング挙動を裏付けており、小規模モデルの天井効果はありません。
LFM2-24B-A2Bは、llama.cpp、vLLM、SGLang、CPUまたはGPUを標準でデイゼロ対応し、GGUF量子化(Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16)を備えています。 CPU(AMD Ryzen AI Max+ 395、Q4_K_M)では、8Kコンテキストで~93 tok/sを維持し、同規模のMoEモデルを上回る性能を発揮しつつ、強力な長期コンテキストスケーリングを維持しています。
CPU(AMD Ryzen AI Max+ 395、Q4_K_M、llama.cpp)では、LFM2-24B-A2Bは1K→8Kのコンテキストで強力なプリフィルスループットを維持し(8Kで約1,132 tok/s)、同規模のMoEモデルと競争力を保っています。 GPU(H100 SXM5、SGLang/vLLM)では、現実的な高並行実行下での良好な出力スループットスケーリングを示し、コスト効率の高い展開やRLVRワークロードに不可欠です。
GPU(H100 SXM5、vLLM)では、LFM2-24B-A2Bは1024リクエスト(最大入力トークン1024/最大出力トークン512)で合計トークンスループット(tok/s)約26.8Kに達し、連続バッチ処理下で同規模のMoEモデルを上回る性能を発揮します。 リアルなインターリーブドプリフィル+デコードで測定され、本番規模のサービスや強化学習(RL)ワークロード向けに構築されています。
84