這是本週的儀式研究摘要,一份涵蓋LLM世界和加密與AI交集最新動態的通訊。 每週有數百篇論文發表,跟上最新動態幾乎是不可能的。我們為您閱讀,所以您無需這樣做。
Critique-RL:透過兩階段強化學習訓練語言模型以進行評價 本文旨在開發不依賴於更強監督或在測試期間使用神諭獎勵函數的評價語言模型。
他們提出了Critique-RL,一種兩階段的強化學習方法,基於演員-評論者互動的在線強化學習方法,用於開發評論模型。 廣泛的實驗顯示,該方法超越了基準,與Qwen 2.5 7B相比,表現更佳。
PACR:逐步上升的信心獎勵,用於 LLM 推理 這項工作探討是否可以從模型中獲得逐步監督。他們引入了 PACR,一種密集的、模型內在的信號,將信心增長轉換為強化學習的逐步監督。
他們發現,持續的信心上升與最終答案的正確性有強烈的相關性。 在多個推理基準中,將 RLVR 與 PACR 方法結合可以改善訓練動態和最終表現。
手動解碼的終結:朝向真正的端到端語言模型 本文提出了AutoDeco,一種能夠控制自身解碼過程的“端到端”語言模型架構。他們為變壓器增強了預測頭。
AutoDeco 頭部利用模型當前的隱藏狀態動態預測下一個標記的最佳取樣參數。 他們為 Deepseek-V3.1-Terminus、Qwen3-235B-A22B-Thinking-2507 和 GPT-OSS-120 發布了 AutoDeco 頭部,並與其他幾個模型進行驗證。
透過循環語言模型擴展潛在推理 本文旨在探討 LoopLM 在各個方面的擴展行為。他們開發了新穎的目標,以訓練高效的遞歸計算,同時保持最佳性能。
他們訓練了兩個模型,1.4B 和 2.6B 參數的 LoopLM,使用 7.7T 的標記,這些模型在幾乎所有基準測試中都能匹配 4B 和 8B 標準變壓器的性能,實現了 2-3 倍的參數效率提升。 他們還探討了為什麼循環變壓器更好的原因。
工具十項全能:基準測試語言代理以執行多樣化、現實且長期的任務 介紹了一個用於評估語言代理的基準。TOOLATHLON 以需要多個應用程式的現實場景為基礎。
TOOLATHLON 平均需要 4–6 小時的工作,由一名主修計算機科學的研究生完成。 Sonnet 4.5、GPT-5 和 Grok4 表現良好。它們觀察到 Pass@3 和 Passˆ3 成功率之間存在顯著差異,這表明能力覆蓋但一致性存在問題。
關注我們 @ritualdigest 獲取有關加密貨幣與 AI 研究的更多資訊,並且 @ritualnet 了解 Ritual 正在構建的內容。
3.92K