NVIDIA 刚刚发布了一篇论文,可能解决了 LLMs 中最大的权衡问题。 速度与质量。 自回归模型(如 GPT)聪明但速度慢 - 它们一次生成一个标记,导致大部分 GPU 处于闲置状态。 扩散模型速度快,但通常会产生不连贯的输出。 TiDAR 在一次前向传递中同时实现了这两者。 这里是聪明的部分: 现代 GPU 可以处理比我们实际使用的更多标记。TiDAR 利用这些 "空闲槽": 1. 使用扩散同时草拟多个标记("思考"阶段) 2. 使用自回归验证它们("对话"阶段) 这两者同时发生,使用智能注意力掩码 - 草拟时为双向,验证时为因果。 结果: ↳ 在 15 亿参数下速度快 4.71 倍,且没有质量损失 ↳ 在 80 亿参数下速度快近 6 倍 ↳ 首个超越推测解码(EAGLE-3)的架构 ↳ 与标准 KV 缓存兼容,不同于纯扩散模型 训练技巧也很聪明 - 他们不是随机掩盖标记,而是掩盖所有内容。这提供了更强的学习信号,并使单步草拟高效。 如果你正在构建实时 AI 代理,而延迟会影响体验,这个架构值得关注。 ...