Dla jeszcze wyższej przepustowości i niższej latencji: generacja wsadowa + równoległość tensorowa z mlx-lm + mlx.distributed. Tutaj generuje z prędkością 63 toków/sek (przepustowość) z GLM 4.7 w 6-bitach i rozmiarze wsadu 4 na 4 M3 Ultras: