Check-out batch generation di mlx-lm dengan GLM 4.7 pada M3 Ultra. Model 6-bit menjalankan batch 4 dengan throughput hampir dua kali lipat (~30 tok/detik) dari satu generasi.
Anda juga dapat melakukan pembuatan tensor-paralel dengan back-end JACCL MLX untuk mendapatkan percepatan menggunakan beberapa mesin. Berikut GLM 4.7 dalam 6-bit menjalankan satu contoh pada empat mesin pada ~25 tok/s:
339