えっと...Qwen3.5-35B-A3Bは、すべてのリクエストで再llama.cpp入力し、本来の速度より約4倍遅いです。誰か解決した人はいますか?みんな喜んで展開してローカルで使っていると思っていますか?しかし、これがまだ解決されていなければ、効果はかなり限られます。 根本原因:GDNレイヤーは繰り返し動作→ pos_min全シーケンス→を追跡しているのに、非SWAモデルではデフォルト1 llama.cpp→ pos_min >1が→常に真キャッシュは毎回完全に再充填→破棄されるSWA閾値でキャッシュを検証しているのですか?
実際、dockerイメージ(2026年3月13日ビルド)には修正が含まれています。手動パッチは不要です。
466