ух..Qwen3.5-35B-A3B на llama.cpp повторно заполняется при каждом запросе, ~4x медленнее, чем должно быть. Кто-нибудь решил эту проблему? Я думал, что люди с радостью развернули и использовали это локально? Но если это еще не решено, производительность довольно ограничена. Коренная причина: слои GDN являются рекуррентными → pos_min отслеживает полную последовательность → но llama.cpp проверяет кэш, используя порог SWA, который по умолчанию равен 1 для моделей без SWA → pos_min > 1 всегда истинно → кэш всегда сбрасывается → полное повторное заполнение каждый раз?
На самом деле образ docker (сборки от 2026-03-13) включает исправления. Ручная патчинг не требуется.
469