一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

为了更高的吞吐量和更低的延迟：批量生成 + 使用 mlx-lm 的张量并行 + 以及 mlx.distributed。这里以 63 个 token/秒（吞吐量）生成，使用 GLM 4.7，6 位和批量大小 4，在 4 个 M3 Ultra 上进行：