öh.. Qwen3.5-35B-A3B llama.cpp esitäyttö jokaiseen pyyntöön, ~4 kertaa hitaammin kuin pitäisi. Onko kukaan ratkaissut tämän? Luulin, että ihmiset ovat iloisesti ottaneet käyttöön ja käyttäneet sitä paikallisesti? Mutta jos tätä ei ole vielä ratkaistu, suorituskyky on melko rajallinen. Juurisyy: GDN-kerrokset ovat toistuvia → pos_min → koko sekvenssin llama.cpp, mutta validoi välimuistin SWA-kynnysarvolla, joka oletuksena on 1 ei-SWA-malleissa, → pos_min > 1 on aina totta → välimuisti hylätään aina → täytetään joka kerta?
Itse asiassa docker image (2026-03-13 versiot) sisältää korjauksia. Manuaalista korjausta ei tarvita.
465