DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Voor nog hogere doorvoer en lagere latentie: batchgeneratie + tensorparallel met mlx-lm + en mlx.distributed. Hier genereert het met 63 tok/sec (doorvoer) met GLM 4.7 in 6-bit en batchgrootte 4 op 4 M3 Ultras:

Boven

Positie

Favorieten