熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
NVIDIA 剛發表了一篇論文,可能解決 LLM 中最大的權衡問題。
速度 vs. 質量。
自回歸模型(如 GPT)聰明但緩慢 - 它們一次生成一個標記,讓大部分 GPU 處於閒置狀態。
擴散模型速度快,但通常產生不連貫的輸出。
TiDAR 在單次前向傳遞中同時獲得兩者。
這裡是天才之處:
現代 GPU 可以處理的標記數量遠超我們實際使用的數量。TiDAR 利用這些 "空閒槽位":
1. 使用擴散同時草擬多個標記("思考"階段)
2. 使用自回歸驗證它們("對話"階段)
這兩者同時發生,使用智能注意力掩碼 - 草擬時為雙向,驗證時為因果。
結果:
↳ 在 15 億參數下速度快 4.71 倍,且無質量損失
↳ 在 80 億參數下速度幾乎快 6 倍
↳ 首個超越推測解碼(EAGLE-3)的架構
↳ 與標準 KV 緩存兼容,不同於純擴散模型
訓練技巧也很巧妙 - 他們不是隨機掩蔽標記,而是掩蔽所有內容。這提供了更強的學習信號,並使單步草擬更高效。
如果你正在構建實時 AI 代理,延遲會影響體驗,這種架構值得關注。
...

熱門
排行
收藏

