熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
很高興能分享我們最近關於 AutoJudge 的研究,這是一種解碼技術,結合了:
- 通過放寬分佈匹配約束來加速推理
- 由於自我監督的訓練協議,使用方便且可擴展
今天在 #NeurIPS2025 發表! (1/9)

我們發現可以自動挖掘接受分類器的標籤。具體來說,我們取一個數據集並運行目標和草稿模型的生成。
然後,我們檢查目標模型和草稿模型之間所有不匹配的標記。如果保留草稿模型中的標記導致錯誤的答案,則將其標記為重要(3/9)

使用這些標籤,我們可以訓練一個簡單的分類器,在推理時找到重要的標記。
如果原始的推測解碼會拒絕一個標記,我們會通過詢問分類器給它第二次機會。對於不重要的標記,我們繼續生成,但對於其他標記,我們開始一個新的推測循環 (4/9)

我們對 AutoJudge 的主要評估集中在容易衡量答案正確性的任務上——程式設計(LiveCodeBench)和數學(GSM8K)。
使用像 8B/70B 這樣的模型對,我們每個循環可以達到最多 40 個接受的標記,準確率下降不到 1%!(5/9)

AutoJudge 也能輕鬆與開源推理框架如 vLLM 整合。接受率的提升轉化為端到端的速度提升:如果我們犧牲 2% 的準確率,我們每秒可以獲得幾乎 50% 更多的標記! (6/9)

檢查重要標記的註解顯示出一個有趣的模式:明顯的錯誤被標記為負樣本(=> 需要重新生成),而語義等價的標記則允許推測繼續進行(7/9)

要了解更多,請查看:
論文:
代碼:
部落格文章:
GSM8K 和 LiveCodeBench 的預計算激活:
(8/9)
這項工作是由我出色的合著者 @garipovroma、@MightyNeighbour、Ivan Ermakov、Ruslan Svirschevski 和 Vage Egiazarian 主導的。
團隊本週在聖地牙哥參加 NeurIPS — 今天來海報會場跟我們打招呼吧!
下午4:30,海報 #2010 (9/9)
2.5K
熱門
排行
收藏

