这是本周的仪式研究摘要,一份涵盖LLM世界和加密与AI交集最新动态的通讯。 每周有数百篇论文发表,跟上最新动态几乎是不可能的。我们为您阅读,所以您无需这样做。
Critique-RL:通过两阶段强化学习训练用于批评的语言模型 本文旨在开发不依赖于更强监督或在测试期间使用神谕奖励函数的批评语言模型。
他们提出了Critique-RL,这是一种两阶段的强化学习方法,基于演员-评论家交互的在线强化学习方法,用于开发评论模型。 大量实验表明,该方法优于基线,使用Qwen 2.5 7B时表现更佳。
PACR:逐步上升的信心奖励,用于LLM推理 这项工作探讨了是否可以从模型中获得逐步监督。他们引入了PACR,这是一种密集的、模型内在的信号,将信心增长转化为强化学习的逐步监督。
他们发现,持续的信心上升与最终答案的正确性有很强的相关性。 在多个推理基准测试中,使用PACR方法增强RLVR可以改善训练动态和最终表现。
手动解码的终结:迈向真正的端到端语言模型 本文提出了AutoDeco,一种能够控制自身解码过程的“端到端”语言模型架构。他们通过预测头增强了变换器。
AutoDeco 头部利用模型当前的隐藏状态动态预测下一个标记的最佳采样参数。 他们为 Deepseek-V3.1-Terminus、Qwen3-235B-A22B-Thinking-2507 和 GPT-OSS-120 发布了 AutoDeco 头部,并与其他几个模型进行了验证。
通过循环语言模型扩展潜在推理 本文旨在探讨LoopLM在各个方面的扩展行为。他们开发了新颖的目标,以训练高效的递归计算,同时保持最佳性能。
他们训练了两个模型,分别是1.4B和2.6B参数的LoopLM,在7.7T个令牌上,这些模型在几乎所有基准测试中都能匹配4B和8B标准变压器的性能,实现了2-3倍的参数效率提升。 他们还探讨了循环变压器表现更好的原因。
工具十项全能:基准测试语言代理在多样化、现实和长期任务执行中的表现 引入了一个用于评估语言代理的基准。TOOLATHLON 基于需要多个应用程序的现实场景。
TOOLATHLON 平均需要计算机科学专业的研究生工作 4–6 小时。 Sonnet 4.5、GPT-5 和 Grok4 表现良好。它们观察到 Pass@3 和 Passˆ3 成功率之间存在显著差异,表明能力覆盖但一致性问题。
关注我们 @ritualdigest,获取更多关于加密货币与 AI 研究的内容, 以及 @ritualnet,了解 Ritual 正在构建的内容。
3.92K