Eh.. Qwen3.5-35B-A3B på llama.cpp re-prefill på hver forespørsel, ~4 ganger tregere enn det burde være. Er det noen som har løst dette? Trodde folk hadde tatt det ut og brukt det lokalt? Men hvis dette ikke er løst ennå, er ytelsen ganske begrenset. Rotårsak: GDN-lagene er gjentakende → pos_min følger full sekvens →, men llama.cpp validerer cache ved å bruke en SWA-terskel som standard er 1 for ikke-SWA-modeller, → pos_min > 1 alltid sant → cache alltid forkastet → full påfylling hver gang?
Faktisk inkluderer docker-bildet (2026-03-13-builds) fikser. Ingen manuell patching nødvendig.
470