GLM-4.7-8bit (350GB) körs i 19 toks/s på två M3 Ultra 512GB med Tensor Parallelism med EXO - MLX, jämfört med 14 tok/s med en enda nod. 🚀 Nu kontextbenchmarking och sedan OpenCode-tester 🔥 Notera: detta kommer från källor, jag var tvungen att ändra saker för att köra det.