För ännu högre genomströmning och lägre latens: batchgenerering + tensor parallellt med mlx-lm + och mlx.distributed. Här genererar den med 63 tok/s (genomströmning) med GLM 4.7 i 6-bitars och batchstorlek 4 på 4 M3 Ultras: