在 M3 Ultra 上使用 GLM 4.7 檢查 mlx-lm 的批次生成。 6 位元模型以幾乎是單次生成的兩倍吞吐量(約 30 tok/秒)運行 4 的批次。
您還可以使用 MLX 的 JACCL 後端進行張量並行生成,以便利用多台機器獲得加速。 這是 GLM 4.7 在 6 位元下在四台機器上運行單個範例的速度約為 25 tok/s:
310