Controlla la generazione di batch in mlx-lm con GLM 4.7 su un M3 Ultra. Il modello a 6 bit esegue un batch di 4 a quasi il doppio della capacità (~30 tok/sec) di una singola generazione.
Puoi anche fare generazione tensor-parallela con il back-end JACCL di MLX per ottenere un'accelerazione utilizzando più macchine. Ecco il GLM 4.7 in 6-bit che esegue un singolo esempio su quattro macchine a ~25 tok/s:
334