🚀 専門家だけでなく埋め込みのスケーリングも、効率的なLLMのための新しい道を導入すること。 重要な発見:高スパーシティのシナリオでは、Nグラム埋め込みは単にMoE専門家を追加するよりもより良いパレートフロンティアをもたらします。 そこで、この洞察に基づく初のオープンソースモデルであるLongCat-Flash-Liteをご紹介します。 ⚙️ 68.5B トータルパララム(37.13B 非埋め込み) |2.9B~4.5B アクティブ 📊 高性能:SWE-Bench 54.4 |τ²-ベンチ72.8 |ターミナルベンチ 33.75 📃 256K コンテキストウィンドウ(YARN駆動) ✨ エージェント/コーディングに最適化されており、一般的な推論力に優れています ⚡ ~700トークン/秒のピーク推論速度 その結果、規模内で競争力を、大幅に低コストと遅延で達成します。 ハグフェイス: テックレポート: