热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
大家好,真心想问大家一个问题:
你们对一系列关于LLM推理优化的内容感兴趣吗?
我在想一些内容,比如:
- 量化是如何实际工作的(GGUF vs AWQ vs bitsandbytes,简单解释,没有废话)
- Ollama与vLLM在本地部署中的比较,以及何时使用哪一个
- 推测解码:在不损失质量的情况下实现2-3倍的速度提升
- KV缓存和提示缓存
- 结构化输出生成
- LLM推理的基准测试和分析
如果这对你有帮助或激发了你的好奇心,请回复告诉我你最感兴趣的内容,或者仅仅告诉我你是否同意或不同意这个想法。
如果有足够多的人感兴趣,我将在新的一年开始这个系列。
热门
排行
收藏
