Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Controlla la generazione di batch in mlx-lm con GLM 4.7 su un M3 Ultra.
Il modello a 6 bit esegue un batch di 4 a quasi il doppio della capacità (~30 tok/sec) di una singola generazione.
Puoi anche fare generazione tensor-parallela con il back-end JACCL di MLX per ottenere un'accelerazione utilizzando più macchine.
Ecco il GLM 4.7 in 6-bit che esegue un singolo esempio su quattro macchine a ~25 tok/s:
334
Principali
Ranking
Preferiti
