Echa un vistazo a la generación por lotes en mlx-lm con GLM 4.7 en un M3 Ultra. El modelo de 6 bits ejecuta un lote de 4 a casi el doble de rendimiento (~30 tok/seg) de una sola generación.
También puedes hacer generación tensor-paralelo con el back-end JACCL de MLX para conseguir una aceleración usando varias máquinas. Aquí está el GLM 4.7 en 6 bits ejecutando un solo ejemplar en cuatro máquinas a ~25 tok/s:
524