Für noch höhere Durchsatzraten und geringere Latenz: Batch-Generierung + Tensorparallelität mit mlx-lm + und mlx.distributed.
Hier werden 63 Tok/Sek (Durchsatz) mit GLM 4.7 in 6-Bit und einer Batch-Größe von 4 auf 4 M3 Ultras generiert:
Überprüfen Sie die Batch-Generierung in mlx-lm mit GLM 4.7 auf einem M3 Ultra.
Das 6-Bit-Modell führt eine Batch von 4 mit fast der doppelten Durchsatzrate (~30 Tok/Sek) einer einzelnen Generation aus.