Per un throughput ancora più elevato e una latenza inferiore: generazione in batch + parallelismo tensoriale con mlx-lm + e mlx.distributed. Qui si sta generando a 63 tok/sec (throughput) con GLM 4.7 in 6-bit e dimensione batch 4 su 4 M3 Ultras: