一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

NVIDIA 刚刚发布了一篇论文，可能解决了 LLMs 中最大的权衡问题。速度与质量。自回归模型（如 GPT）聪明但速度慢 - 它们一次生成一个标记，导致大部分 GPU 处于闲置状态。扩散模型速度快，但通常会产生不连贯的输出。 TiDAR 在一次前向传递中同时实现了这两者。这里是聪明的部分：现代 GPU 可以处理比我们实际使用的更多标记。TiDAR 利用这些 "空闲槽"： 1. 使用扩散同时草拟多个标记（"思考"阶段） 2. 使用自回归验证它们（"对话"阶段）这两者同时发生，使用智能注意力掩码 - 草拟时为双向，验证时为因果。结果： ↳ 在 15 亿参数下速度快 4.71 倍，且没有质量损失 ↳ 在 80 亿参数下速度快近 6 倍 ↳ 首个超越推测解码（EAGLE-3）的架构 ↳ 与标准 KV 缓存兼容，不同于纯扩散模型训练技巧也很聪明 - 他们不是随机掩盖标记，而是掩盖所有内容。这提供了更强的学习信号，并使单步草拟高效。如果你正在构建实时 AI 代理，而延迟会影响体验，这个架构值得关注。 ...