GLM-4.7-8bit (350GB) працює зі швидкістю 19 ток/с на двох M3 Ultra 512GB з використанням Tensor Parallelism з EXO - MLX, проти 14 ток/с з одним вузлом. 🚀 Тепер контекстний бенчмаркінг, а потім тестування 🔥 OpenCode Примітка: це з джерел, мені довелося щось змінити, щоб запустити.