Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Echa un vistazo a la generación por lotes en mlx-lm con GLM 4.7 en un M3 Ultra.
El modelo de 6 bits ejecuta un lote de 4 a casi el doble de rendimiento (~30 tok/seg) de una sola generación.
También puedes hacer generación tensor-paralelo con el back-end JACCL de MLX para conseguir una aceleración usando varias máquinas.
Aquí está el GLM 4.7 en 6 bits ejecutando un solo ejemplar en cuatro máquinas a ~25 tok/s:
524
Populares
Ranking
Favoritas
