DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

öh.. Qwen3.5-35B-A3B llama.cpp esitäyttö jokaiseen pyyntöön, ~4 kertaa hitaammin kuin pitäisi. Onko kukaan ratkaissut tämän? Luulin, että ihmiset ovat iloisesti ottaneet käyttöön ja käyttäneet sitä paikallisesti? Mutta jos tätä ei ole vielä ratkaistu, suorituskyky on melko rajallinen. Juurisyy: GDN-kerrokset ovat toistuvia → pos_min → koko sekvenssin llama.cpp, mutta validoi välimuistin SWA-kynnysarvolla, joka oletuksena on 1 ei-SWA-malleissa, → pos_min > 1 on aina totta → välimuisti hylätään aina → täytetään joka kerta?

Itse asiassa docker image (2026-03-13 versiot) sisältää korjauksia. Manuaalista korjausta ei tarvita.

465

Johtavat

Rankkaus

Suosikit