Для ще більшої пропускної здатності та нижчої затримки: пакетна генерація + тензор паралельно з mlx-lm + та mlx.distributed (розподілено). Тут він генерує з пропускною здатністю 63 ток/сек з GLM 4.7 у 6-бітному форматі та пакетним розміром 4 на 4 M3 Ultra: