为了更高的吞吐量和更低的延迟:批量生成 + 使用 mlx-lm 的张量并行 + 以及 mlx.distributed。 这里以 63 个 token/秒(吞吐量)生成,使用 GLM 4.7,6 位和批量大小 4,在 4 个 M3 Ultra 上进行: