DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

För ännu högre genomströmning och lägre latens: batchgenerering + tensor parallellt med mlx-lm + och mlx.distributed. Här genererar den med 63 tok/s (genomströmning) med GLM 4.7 i 6-bitars och batchstorlek 4 på 4 M3 Ultras:

Topp

Rankning

Favoriter