Qwen3.5 draait behoorlijk goed in mlx-lm. Geweldig dat we een hybride model op grensniveau hebben. De context wordt langer, maar de inferentiesnelheid en het geheugengebruik veranderen nauwelijks. Hier is de Q4 die een space invaders-spel genereert op een M3 Ultra. Genereerde 4.120 tokens met 37,6 tok/s.
Bedankt aan @pcuenq voor de conversie. En aan @JJJYmmm2002, @ActuallyIsaak, en @JohnMai_Dev voor de poort.
92