Vérifiez la génération de lots dans mlx-lm avec GLM 4.7 sur un M3 Ultra. Le modèle 6 bits exécute un lot de 4 à presque le double du débit (~30 tok/sec) d'une seule génération.
Vous pouvez également effectuer une génération parallèle de tenseurs avec le back-end JACCL de MLX pour obtenir un gain de vitesse en utilisant plusieurs machines. Voici le GLM 4.7 en 6 bits exécutant un seul exemple sur quatre machines à ~25 tok/s :
340