Qwen3.5 běží v mlx-lm docela dobře. Skvělé, že máme hybridní model na úrovni hranice. Kontext se prodlužuje, ale rychlost inference a využití paměti se téměř nemění. Tady je Q4, jak generuje hru Space Invaders na M3 Ultra. Vygeneroval 4 120 tokenů při rychlosti 37,6 tok/s.
Díky @pcuenq za konverzi. A @JJJYmmm2002, @ActuallyIsaak a @JohnMai_Dev do přístavu.
63