Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eh.. Qwen3.5-35B-A3B på llama.cpp re-prefill på hver forespørsel, ~4 ganger tregere enn det burde være. Er det noen som har løst dette? Trodde folk hadde tatt det ut og brukt det lokalt? Men hvis dette ikke er løst ennå, er ytelsen ganske begrenset.
Rotårsak: GDN-lagene er gjentakende → pos_min følger full sekvens →, men llama.cpp validerer cache ved å bruke en SWA-terskel som standard er 1 for ikke-SWA-modeller, → pos_min > 1 alltid sant → cache alltid forkastet → full påfylling hver gang?

Faktisk inkluderer docker-bildet (2026-03-13-builds) fikser. Ingen manuell patching nødvendig.

470
Topp
Rangering
Favoritter
