Sprawdź generację wsadów w mlx-lm z GLM 4.7 na M3 Ultra. Model 6-bitowy działa w partii 4 z prawie podwójną przepustowością (~30 tok/sec) w porównaniu do pojedynczej generacji.
Możesz również przeprowadzić generację równoległą tensorów z użyciem backendu JACCL MLX, aby uzyskać przyspieszenie przy użyciu wielu maszyn. Oto GLM 4.7 w 6-bitach uruchamiający pojedynczy przykład na czterech maszynach z prędkością ~25 tok/s:
372