Aito kysymys kaikille täällä: Olisitko kiinnostunut sarjasta LLM:n päättelyoptimoinnista? Ajattelen esimerkiksi: - Kuinka kvantisointi oikeasti toimii (GGUF vs AWQ vs bitsandbytes, selitettynä yksinkertaisesti, ei turhaa) - Ollama vs vs vLLM paikallisen käyttöönoton ja käyttöajankohdan osalta - Spekulatiivinen dekoodaus: 2–3-kertaiset nopeutukset ilman laadun heikkenemistä - KV-välimuisti ja kehotteiden välimuisti - Rakenteellinen tuotannon generointi - LLM-päättelyn vertailu ja profilointi Jos tämä auttaisi sinua tai herättäisi uteliaisuutesi, vastaa vain ja kerro minulle pääasiallinen kiinnostuksesi tai oletko samaa vai eri mieltä tästä ideasta. Jos tarpeeksi ihmisiä on mukana, aloitan tämän uuden vuoden alussa.