Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eh.. Qwen3.5-35B-A3B na llama.cpp doplňujte při každé žádosti, ~4x pomaleji, než by mělo být. Někdo to vyřešil? Mysleli jste si, že lidé ho rádi nasadili a používali lokálně? Pokud to ale ještě není vyřešeno, výkon je poměrně omezený.
Hlavní příčina: GDN vrstvy jsou opakující se → pos_min sledují celou sekvenci →, ale llama.cpp ověřuje cache pomocí SWA prahu, který je výchozí 1 pro ne-SWA modely → pos_min > 1 vždy platí → cache vždy vyhazuje → kompletní doplnění pokaždé?

Ve skutečnosti docker image (buildy 2026-03-13) obsahuje opravy. Není potřeba žádné ruční opravy.

453
Top
Hodnocení
Oblíbené
