uh.. Qwen3.5-35B-A3B pada llama.cpp mengisi ulang pada setiap permintaan, ~4x lebih lambat dari yang seharusnya. ada yang memecahkan ini? Pikir orang-orang dengan senang hati menyebarkan & menggunakannya secara lokal? Tetapi jika ini belum terselesaikan, hasilnya cukup terbatas. Akar penyebab: Lapisan GDN berulang → pos_min melacak urutan penuh → tetapi llama.cpp memvalidasi cache menggunakan ambang batas SWA yang default ke 1 untuk model non-SWA → pos_min > 1 selalu benar → cache selalu dibuang → isi ulang penuh setiap saat?
Sebenarnya gambar buruh pelabuhan (13-03-2026) menyertakan perbaikan. Tidak perlu menambal manual.
471