热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
NVIDIA 刚刚发布了一篇论文,可能解决了 LLMs 中最大的权衡问题。
速度与质量。
自回归模型(如 GPT)聪明但速度慢 - 它们一次生成一个标记,导致大部分 GPU 处于闲置状态。
扩散模型速度快,但通常会产生不连贯的输出。
TiDAR 在一次前向传递中同时实现了这两者。
这里是聪明的部分:
现代 GPU 可以处理比我们实际使用的更多标记。TiDAR 利用这些 "空闲槽":
1. 使用扩散同时草拟多个标记("思考"阶段)
2. 使用自回归验证它们("对话"阶段)
这两者同时发生,使用智能注意力掩码 - 草拟时为双向,验证时为因果。
结果:
↳ 在 15 亿参数下速度快 4.71 倍,且没有质量损失
↳ 在 80 亿参数下速度快近 6 倍
↳ 首个超越推测解码(EAGLE-3)的架构
↳ 与标准 KV 缓存兼容,不同于纯扩散模型
训练技巧也很聪明 - 他们不是随机掩盖标记,而是掩盖所有内容。这提供了更强的学习信号,并使单步草拟高效。
如果你正在构建实时 AI 代理,而延迟会影响体验,这个架构值得关注。
...

热门
排行
收藏

