Qwen3.5 rulează destul de bine în mlx-lm. E grozav că avem un model hibrid de nivel frontieră. Contextul devine mai lung, dar viteza de inferență și consumul memoriei abia dacă se schimbă. Iată Q4 generând un joc Space Invaders pe un M3 Ultra. A generat 4.120 de jetoane la o rată de 37,6 tok/s.
Mulțumiri lui @pcuenq pentru conversie. Și @JJJYmmm2002, @ActuallyIsaak și @JohnMai_Dev pentru port.
64