Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ух..Qwen3.5-35B-A3B на llama.cpp повторно заполняется при каждом запросе, ~4x медленнее, чем должно быть. Кто-нибудь решил эту проблему? Я думал, что люди с радостью развернули и использовали это локально? Но если это еще не решено, производительность довольно ограничена.
Коренная причина: слои GDN являются рекуррентными → pos_min отслеживает полную последовательность → но llama.cpp проверяет кэш, используя порог SWA, который по умолчанию равен 1 для моделей без SWA → pos_min > 1 всегда истинно → кэш всегда сбрасывается → полное повторное заполнение каждый раз?

На самом деле образ docker (сборки от 2026-03-13) включает исправления. Ручная патчинг не требуется.

469
Топ
Рейтинг
Избранное
