一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

在 M3 Ultra 上使用 GLM 4.7 檢查 mlx-lm 的批次生成。 6 位元模型以幾乎是單次生成的兩倍吞吐量（約 30 tok/秒）運行 4 的批次。

您還可以使用 MLX 的 JACCL 後端進行張量並行生成，以便利用多台機器獲得加速。這是 GLM 4.7 在 6 位元下在四台機器上運行單個範例的速度約為 25 tok/s：

310

熱門

排行

收藏