Qwen3.5はmlx-lmでかなり快適に動作します。 フロンティアレベルのハイブリッドモデルがあるのは素晴らしいことです。コンテキストは長くなりますが、推論速度やメモリの使用量はほとんど変わりません。 こちらはM3ウルトラでスペースインベーダーズのゲームを生成するQ4です。4,120トークンを37.6 tok/sで生成しました。
@pcuenqに変換してくれてありがとう。港@JJJYmmm2002、@ActuallyIsaak、@JohnMai_Dev。
78