Qwen3.5 funciona bastante bien en mlx-lm. Es increíble que tengamos un modelo híbrido de nivel frontera. El contexto se vuelve más largo, pero la velocidad de inferencia y el uso de memoria apenas cambian. Aquí está el Q4 generando un juego de Space Invaders en un M3 Ultra. Generó 4,120 tokens a 37.6 tok/s.
Gracias a @pcuenq por la conversión. Y a @JJJYmmm2002, @ActuallyIsaak y @JohnMai_Dev por el puerto.
76