uh.. Qwen3.5-35B-A3B pe llama.cpp re-pre-fill la fiecare cerere, ~4 de ori mai lent decât ar trebui să fie. A rezolvat cineva asta? Credeam că oamenii au implementat și au folosit cu plăcere localul? Dar dacă acest lucru nu este încă rezolvat, performanța este destul de limitată. Cauza principală: straturile GDN sunt recurente → pos_min urmărește întreaga secvență → dar llama.cpp validează cache-ul folosind un prag SWA care implicit este 1 pentru modelele non-SWA → pos_min > 1 este întotdeauna adevărat → cache-ul este întotdeauna aruncat → reumplerea completă de fiecare dată?
De fapt, Docker Image (versiuni 2026-03-13) include remedieri. Nu este nevoie de patch-uri manuale.
458