O Qwen3.5 funciona bastante bem no mlx-lm. É incrível que temos um modelo híbrido de nível de fronteira. O contexto fica mais longo, mas a velocidade de inferência e o uso de memória mal mudam. Aqui está o Q4 gerando um jogo de space invaders em um M3 Ultra. Gerou 4.120 tokens a 37,6 tok/s.
Obrigado ao @pcuenq pela conversão. E ao @JJJYmmm2002, @ActuallyIsaak e @JohnMai_Dev pelo port.
70