Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

uh..Qwen3.5-35B-A3B no llama.cpp re-preencher em cada pedido, ~4x mais lento do que deveria ser. alguém resolveu isso? Pensei que as pessoas o tinham implantado e usado localmente com sucesso? Mas se isso ainda não foi resolvido, o desempenho é bastante limitado. Causa raiz: As camadas GDN são recorrentes → pos_min rastreia toda a sequência → mas o llama.cpp valida o cache usando um limite SWA que por padrão é 1 para modelos não-SWA → pos_min > 1 sempre verdadeiro → cache sempre descartado → reabastecimento completo toda vez?

Na verdade, a imagem do docker (compilações de 2026-03-13) inclui correções. Nenhuma correção manual é necessária.

467

Top

Classificação

Favoritos