GLM-4.7-8bit (350GB) 在兩個 M3 Ultra 512GB 上以 19 toks/s 的速度運行,使用 Tensor Parallelism 與 EXO - MLX,相較於單節點的 14 toks/s。🚀 現在進行上下文基準測試 & 然後是 OpenCode 測試 🔥 注意:這是來自來源的,我必須更改一些東西才能運行它。