Qwen3.5 funziona abbastanza bene in mlx-lm. È fantastico che abbiamo un modello ibrido di livello frontier. Il contesto diventa più lungo, ma la velocità di inferenza e l'uso della memoria cambiano a malapena. Ecco il Q4 che genera un gioco di space invaders su un M3 Ultra. Ha generato 4.120 token a 37,6 tok/s.
Grazie a @pcuenq per la conversione. E a @JJJYmmm2002, @ActuallyIsaak e @JohnMai_Dev per il porting.
84