新しいMLX server_benchmarkを連続バッチ処理に使い、M3 UltraでMiniMax M2.1をローカルにプッシュしています。 4bit: 1件のリクエスト:48 t/s 32件のリクエスト:220 t/s 🔥 8ビット: 1回のリクエスト:36 t/s 32件のリクエスト:150t/s 🔥