Qwen3.5 работает довольно хорошо в mlx-lm. Здорово, что у нас есть гибридная модель на уровне фронтира. Контекст становится длиннее, но скорость вывода и использование памяти почти не меняются. Вот Q4, генерирующий игру Space Invaders на M3 Ultra. Сгенерировано 4,120 токенов со скоростью 37.6 ток/с.
Спасибо @pcuenq за конвертацию. И @JJJYmmm2002, @ActuallyIsaak и @JohnMai_Dev за порт.
93