Qwen3.5 hoạt động khá tốt trong mlx-lm. Thật tuyệt khi chúng ta có một mô hình hybrid cấp biên giới. Ngữ cảnh dài hơn nhưng tốc độ suy diễn và mức sử dụng bộ nhớ hầu như không thay đổi. Đây là Q4 tạo ra một trò chơi Space Invaders trên M3 Ultra. Đã tạo ra 4.120 token với tốc độ 37,6 tok/s.
Cảm ơn @pcuenq vì sự chuyển đổi. Và @JJJYmmm2002, @ActuallyIsaak, và @JohnMai_Dev vì đã thực hiện port.
91