DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

uh..Qwen3.5-35B-A3B op llama.cpp herprefill bij elke aanvraag, ~4x langzamer dan het zou moeten zijn. Heeft iemand dit opgelost? Dacht dat mensen het gelukkig lokaal hadden ingezet en gebruikt? Maar als dit nog niet is opgelost, is de prestatie behoorlijk beperkt. Oorzaak: GDN-lagen zijn recurrent → pos_min volgt de volledige reeks → maar llama.cpp valideert de cache met een SWA-drempel die standaard op 1 staat voor niet-SWA-modellen → pos_min > 1 altijd waar → cache wordt altijd weggegooid → volledige herprefill elke keer?

Eigenlijk bevat de docker-image (builds van 2026-03-13) fixes. Geen handmatige patching nodig.

468

Boven

Positie

Favorieten