DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Controlla la generazione di batch in mlx-lm con GLM 4.7 su un M3 Ultra. Il modello a 6 bit esegue un batch di 4 a quasi il doppio della capacità (~30 tok/sec) di una singola generazione.

Puoi anche fare generazione tensor-parallela con il back-end JACCL di MLX per ottenere un'accelerazione utilizzando più macchine. Ecco il GLM 4.7 in 6-bit che esegue un singolo esempio su quattro macchine a ~25 tok/s:

334

Principali

Ranking

Preferiti