Untuk throughput yang lebih tinggi dan latensi yang lebih rendah: batch generasi + tensor paralel dengan mlx-lm + dan mlx.distributed. Di sini dihasilkan pada 63 tok/detik (throughput) dengan GLM 4.7 dalam 6-bit dan ukuran batch 4 pada 4 M3 Ultras: