GLM-4.7-8bit (350GB) đang chạy với tốc độ 19 toks/s trên hai M3 Ultra 512GB sử dụng Tensor Parallelism với EXO - MLX, so với 14 toks/s với một nút đơn. 🚀 Bây giờ đang kiểm tra hiệu suất ngữ cảnh & sau đó là các bài kiểm tra OpenCode 🔥 Lưu ý: đây là từ các nguồn, tôi đã phải thay đổi một số thứ để chạy nó.