Para um throughput ainda maior e latência menor: geração em lote + tensor paralelo com mlx-lm + e mlx.distributed. Aqui ele gera a 63 tok/s (throughput) com GLM 4.7 em 6-bit e tamanho lote 4 em 4 M3 Ultras: