Qwenチームによるハイブリッドのタイニーモデルのリリースは、いつも通り本当に印象的です! オンデバイス展開において、@liquidaiのLFMと速度、レイテンシ、メモリの面でどう比較できるのか、多くの人が尋ねています。 こちらがApple M3 Ultraの簡単なプロフィールです: > LFM2.5-1.2BはQwen3.5-0.8Bより52%高速なデコード速度です。 > LFM2-700Mはデコード時にQwen3.5-0.8Bより71%速いです > LFM2-2.6Bはデコード時にQwen3.5-2Bと同じ速度を持ちます > LFM2-700MはQwen3.5-0.8Bに比べてピークメモリを46%少なく使用します > LFM2-2.6BはQwen3.5-2Bに比べてピークメモリを21%少なく使用します > 同じパラメータサイズのlfmsプリフィルは、一般的にQwen3.5より12%高速です 私たちは、品質を犠牲にすることなく、特定のプロセッサに最適なアーキテクチャを見つけるためのハードウェア・イン・ザ・ループのメタAI設計アプローチでLFM2シリーズを設計しました。 このテストはApple M3 Ultra、512GBユニファイドメモリで実施されます 設定: >512個のプロンプトトークン、128個の生成トークン、 > 各構成につき5回の試行 > フレームワーク:MLX(mlx-lm / mlx-vlm)