GLM-4.7-8bit (350GB) 在两台 M3 Ultra 512GB 上以 19 toks/s 的速度运行,使用了 EXO - MLX 的张量并行性,而单节点的速度为 14 toks/s。🚀 现在进行上下文基准测试,然后进行 OpenCode 测试 🔥 注意:这是来自于来源,我不得不更改一些内容以使其运行。