Pro ještě vyšší propustnost a nižší latenci: dávková generace + tenzorová paralelní s mlx-lm + a mlx.distributed. Zde generuje rychlostí 63 tok/s (propustnost) s GLM 4.7 v 6bitovém režimu a velikostí dávky 4 na 4 M3 Ultra: