euh..Qwen3.5-35B-A3B sur llama.cpp re-remplissage à chaque demande, ~4x plus lent que cela ne devrait l'être. Quelqu'un a-t-il résolu cela ? Je pensais que les gens l'avaient déployé et utilisé localement avec succès ? Mais si cela n'est pas encore résolu, la performance est assez limitée. Cause racine : Les couches GDN sont récurrentes → pos_min suit la séquence complète → mais llama.cpp valide le cache en utilisant un seuil SWA qui par défaut est de 1 pour les modèles non-SWA → pos_min > 1 toujours vrai → cache toujours rejeté → re-remplissage complet à chaque fois ?
En fait, l'image docker (versions du 13 mars 2026) inclut des corrections. Aucun patch manuel n'est nécessaire.
495