Qwen3.5 fungerar ganska bra i mlx-lm. Fantastiskt att vi har en hybridmodell på gränsnivå. Sammanhanget blir längre men inferenshastigheten och minnesanvändningen förändras knappt. Här är Q4 som genererar ett Space Invaders-spel på en M3 Ultra. Genererade 4 120 tokens med 37,6 tok/s.
Tack till @pcuenq för omvandlingen. Och @JJJYmmm2002, @ActuallyIsaak och @JohnMai_Dev till hamnen.
79