Qwen3.5 läuft ziemlich gut in mlx-lm. Es ist großartig, dass wir ein Hybridmodell auf Grenzniveau haben. Der Kontext wird länger, aber die Inferenzgeschwindigkeit und der Speicherverbrauch ändern sich kaum. Hier ist das Q4, das ein Space Invaders-Spiel auf einem M3 Ultra generiert. Es wurden 4.120 Tokens mit 37,6 tok/s generiert.
Danke an @pcuenq für die Umwandlung. Und an @JJJYmmm2002, @ActuallyIsaak und @JohnMai_Dev für den Port.
91