DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Check-out batch generation di mlx-lm dengan GLM 4.7 pada M3 Ultra. Model 6-bit menjalankan batch 4 dengan throughput hampir dua kali lipat (~30 tok/detik) dari satu generasi.

Anda juga dapat melakukan pembuatan tensor-paralel dengan back-end JACCL MLX untuk mendapatkan percepatan menggunakan beberapa mesin. Berikut GLM 4.7 dalam 6-bit menjalankan satu contoh pada empat mesin pada ~25 tok/s:

339

Teratas

Peringkat

Favorit