GLM-4.7-8bit (350GB) работает на 19 токенов/с на двух M3 Ultra 512GB с использованием тензорного параллелизма с EXO - MLX, по сравнению с 14 токенов/с на одном узле. 🚀 Теперь проводим бенчмаркинг контекста & затем тесты OpenCode 🔥 Примечание: это из источников, мне пришлось изменить некоторые вещи, чтобы запустить это.