Katso erägenerointia mlx-lm:ssä GLM 4.7:llä M3 Ultralla. 6-bittinen malli pyörittää neljän kappaleen erää, lähes kaksinkertaisella läpäisynopeudella (~30 tok/s) verrattuna yksittäiseen sukupolveen.
Voit myös tehdä tensor-rinnakkaisgenerointia MLX:n JACCL-taustajärjestelmällä, jolloin saat nopeutuksen useilla koneilla. Tässä on GLM 4.7 6-bittisessä versiossa, joka ajaa yhden esimerkin neljällä koneella nopeudella ~25 tok/s:
355