Bekijk de batchgeneratie in mlx-lm met GLM 4.7 op een M3 Ultra. Het 6-bits model draait een batch van 4 met bijna dubbele doorvoer (~30 tok/sec) van een enkele generatie.
Je kunt ook tensor-parallel generatie doen met de JACCL-backend van MLX om een versnelling te krijgen met meerdere machines. Hier is de GLM 4.7 in 6-bit die een enkel voorbeeld draait op vier machines met ~25 tok/s:
341