DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Bekijk de batchgeneratie in mlx-lm met GLM 4.7 op een M3 Ultra. Het 6-bits model draait een batch van 4 met bijna dubbele doorvoer (~30 tok/sec) van een enkele generatie.

Je kunt ook tensor-parallel generatie doen met de JACCL-backend van MLX om een versnelling te krijgen met meerdere machines. Hier is de GLM 4.7 in 6-bit die een enkel voorbeeld draait op vier machines met ~25 tok/s:

341

Boven

Positie

Favorieten