M3 Ultra'da GLM 4.7 ile mlx-lm'de toplu üretime göz atın. 6-bit model, tek bir neslin neredeyse iki katı (~30 tok/s) ile 4 adet üretir.
Ayrıca MLX'in JACCL arka uçuyla tensor-paralel üretim yaparak birden fazla makine kullanarak hızlanma elde edebilirsiniz. İşte GLM 4.7 6-bit, dört makinede ~25 tok/s hızında tek bir örnek çalıştırıyor:
354