Voor nog hogere doorvoer en lagere latentie: batchgeneratie + tensorparallel met mlx-lm + en mlx.distributed. Hier genereert het met 63 tok/sec (doorvoer) met GLM 4.7 in 6-bit en batchgrootte 4 op 4 M3 Ultras: