今週の Ritual Research Digest は、LLM の世界の最新情報と Crypto x AI の交差点をカバーするニュースレターです。 毎週何百もの論文が発行されているため、最新の情報を入手することは不可能です。私たちはあなたがその必要を省くように読書を行います。
Critique-RL:2段階強化学習による批判のための言語モデルのトレーニング この論文は、テスト中により強力な監視やオラクル報酬関数に依存しない批評言語モデルを開発することを目的としています。
彼らは、批評モデルを開発するためのアクターと批評家の相互作用に基づくオンラインRLアプローチである2段階のRLアプローチであるCritique-RLを提案しています。 広範な実験により、この方法はベースラインよりも優れており、Qwen 2.5 7B でより優れたパフォーマンスが得られることが示されています。
PACR: LLM 推論に対する信頼度の漸進的な上昇報酬 この作業では、モデルから段階的な監視が得られるかどうかを尋ねます。彼らは、信頼度の高まりをRLの段階的な監視に変換する高密度のモデル固有のシグナルであるPACRを導入します。
彼らは、とりわけ、一貫した信頼度の上昇が最終的な回答の正しさと強く相関していることを発見しました。 複数の推論ベンチマークにわたって、PACR メソッドで RLVR を強化すると、トレーニングのダイナミクスと最終的なパフォーマンスが向上します。
手動デコードの終焉: 真のエンドツーエンドの言語モデルに向けて 本稿では、独自のデコードプロセスを制御できる「エンドツーエンド」のLMを作成するアーキテクチャであるAutoDecoを提案します。彼らは予測ヘッドでトランスフォーマーを拡張します。
AutoDecoヘッドは、モデルの現在の隠れ状態を利用して、次のトークンの最適なサンプリングパラメータを動的に予測します。 彼らは、Deepseek-V3.1-Terminus、Qwen3-235B-A22B-Thinking-2507、およびGPT-OSS-120用のAutoDecoヘッドをリリースし、他のいくつかのモデルで検証します。
ループ言語モデルによる潜在推論のスケーリング この論文は、LoopLMのスケーリング動作をさまざまな側面から探ることを目的としています。彼らは、最高のパフォーマンスを維持しながら効率的なリカレント計算をトレーニングするための新しい目標を開発します。
彼らは、ほぼすべてのベンチマークで 4B および 8B 標準トランスフォーマーのパフォーマンスに匹敵する 7.7T トークンで 1.4B および 2.6B パラメータ LoopLM の 2 つのモデルをトレーニングし、パラメータ効率を 2-3× 向上させます。 また、ループ変圧器が優れている理由も探ります。
ツール Decathlon: 多様で現実的で長期的なタスク実行のための言語エージェントのベンチマーク 言語エージェントを評価するためのベンチマークを導入します。TOOLATHLONは、複数のアプリを必要とする現実的なシナリオに基づいています。
TOOLATHLONは、CSを専攻する研究大学院生が平均して4〜6時間の作業を必要とします。 Sonnet 4.5、GPT-5、Grok4 は良好なパフォーマンスを発揮します。彼らは、Pass@3 と Passˆ3 の成功率の間に大きな違いがあることを観察し、機能のカバレッジはあるが一貫性の問題を示しています。
暗号通貨 x AI 研究に関するすべての詳細については、@ritualdigest をフォローしてください。 @ritualnet Ritualが構築しているものについて詳しく知りたい。
3.92K