Для еще большей пропускной способности и меньшей задержки: пакетная генерация + тензорное параллельное выполнение с mlx-lm + и mlx.distributed. Здесь генерируется 63 ток/сек (пропускная способность) с GLM 4.7 в 6-битном формате и размером пакета 4 на 4 M3 Ultras: