對在場的每個人來說,這是一個真誠的問題: 你們會對一系列有關 LLM 推理優化的內容感興趣嗎? 我在想一些內容,例如: - 量化實際上是如何運作的(GGUF 與 AWQ 與 bitsandbytes,簡單解釋,沒有廢話) - Ollama 與 vLLM 的本地部署,何時使用哪一個 - 投機解碼:在不損失質量的情況下實現 2-3 倍的速度提升 - KV 緩存和提示緩存 - 結構化輸出生成 - LLM 推理的基準測試和性能分析 如果這對你有幫助或激發了你的好奇心,請回覆告訴我你的主要興趣,或者只是告訴我你是否同意或不同意這個想法。 如果有足夠的人感興趣,我會在新的一年開始這個計劃。