En genuin fråga till alla här: Skulle du vara intresserad av en serie om LLM-inferensoptimering? Jag tänker saker som: - Hur kvantisering faktiskt fungerar (GGUF vs AWQ vs bitsandbytes, förklarat enkelt, utan fluff) - Ollama vs vLLM för lokal distribution och när vilken ska användas - Spekulativ avkodning: 2–3x hastighetsökningar utan kvalitetsförlust - KV-cache och promptcaching - Strukturerad utdatagenerering - Benchmarking och profilering av LLM-inferens Om detta skulle hjälpa dig eller väcka din nyfikenhet, svara bara och berätta vad du är mest intresserad av, eller om du håller med eller inte håller med om idén. Om tillräckligt många är med, startar jag det här under det nya året.