ここにいる皆さんに本当に質問です: LLM推論最適化のシリーズに興味はありますか? 私が考えているのは、こんな感じです: - 量子化の実際の仕組み(GGUF、AWQ、Bitsandbytes、簡潔に説明、無駄なし) - ローカル展開と使用時期におけるOllama vs vLLM - スペキュレイティブ復号:品質を損なうことなく2〜3倍の高速化 - KVキャッシュおよびプロンプトキャッシュ - 構造化出力生成 - ベンチマーキングおよびプロファイリングLLM推論 もしこれがあなたの助けになったり、好奇心を刺激するなら、あなたの主な興味を教えてくれればいいですし、この考えに賛成か反対かを教えてください。 十分な人数が集まれば、新年にこの活動を始めます。