Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh..Qwen3.5-35B-A3B no llama.cpp re-preencher em cada pedido, ~4x mais lento do que deveria ser. alguém resolveu isso? Pensei que as pessoas o tinham implantado e usado localmente com sucesso? Mas se isso ainda não foi resolvido, o desempenho é bastante limitado.
Causa raiz: As camadas GDN são recorrentes → pos_min rastreia toda a sequência → mas o llama.cpp valida o cache usando um limite SWA que por padrão é 1 para modelos não-SWA → pos_min > 1 sempre verdadeiro → cache sempre descartado → reabastecimento completo toda vez?

Na verdade, a imagem do docker (compilações de 2026-03-13) inclui correções. Nenhuma correção manual é necessária.

467
Top
Classificação
Favoritos
