Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh..Qwen3.5-35B-A3B op llama.cpp herprefill bij elke aanvraag, ~4x langzamer dan het zou moeten zijn. Heeft iemand dit opgelost? Dacht dat mensen het gelukkig lokaal hadden ingezet en gebruikt? Maar als dit nog niet is opgelost, is de prestatie behoorlijk beperkt.
Oorzaak: GDN-lagen zijn recurrent → pos_min volgt de volledige reeks → maar llama.cpp valideert de cache met een SWA-drempel die standaard op 1 staat voor niet-SWA-modellen → pos_min > 1 altijd waar → cache wordt altijd weggegooid → volledige herprefill elke keer?

Eigenlijk bevat de docker-image (builds van 2026-03-13) fixes. Geen handmatige patching nodig.

468
Boven
Positie
Favorieten
