Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh.. Qwen3.5-35B-A3B pe llama.cpp re-pre-fill la fiecare cerere, ~4 de ori mai lent decât ar trebui să fie. A rezolvat cineva asta? Credeam că oamenii au implementat și au folosit cu plăcere localul? Dar dacă acest lucru nu este încă rezolvat, performanța este destul de limitată.
Cauza principală: straturile GDN sunt recurente → pos_min urmărește întreaga secvență → dar llama.cpp validează cache-ul folosind un prag SWA care implicit este 1 pentru modelele non-SWA → pos_min > 1 este întotdeauna adevărat → cache-ul este întotdeauna aruncat → reumplerea completă de fiecare dată?

De fapt, Docker Image (versiuni 2026-03-13) include remedieri. Nu este nevoie de patch-uri manuale.

458
Limită superioară
Clasament
Favorite
