分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Robert Youssef

なんてこと。。。MITのこの論文は、モデルが完全に行き詰🤯まったときに自分で推論を学ぶ方法を静かに説明しています核心的なアイデアは一見シンプルです: 推論が失敗するのは、学習にしがみつくものがないからです。モデルの成功率がほぼゼロに落ちると、強化学習は機能しなくなります。報酬の合図もありません。勾配もありません。改善はありません。モデルは「推論が下手」ではなく、学習可能性の限界を超えて閉じ込められているのです。この論文は問題の枠組みを再構築します。「どうすればモデルで難しい問題を解決できるか?」と問う代わりに、彼らはこう問いかけます。「モデルはどのようにして学び得られる問題を生み出すのか?」そこでSOARの出番です。 SOARは単一の事前学習モデルを2つの役割に分割します: ・非常に難しいターゲット問題に取り組む学生・生徒に新たな研修課題を生み出す教師しかし、その制約は過酷です。教師は巧妙な質問や多様性、リアリズムに対して報酬を得ることはありません。学生の成績が固定された実際の評価問題で改善した場合のみ報酬が与えられます。改善はない?報酬なし。これにより状況は完全に変わります。先生は見た目や新奇さを最適化しているわけではありません。学習進捗を最適化するのです。時間が経つにつれて、教師は通常人間が手動でハードコーディングしていることを発見します。中間的な問題。目標課題の解答版ではありません。薄められたコピーではありません。しかし、それは学生の現在の能力の境界のすぐ内側にある問題であり、学べるほど近く、重要になるほど遠い問題です。驚くべき点はここにあります。生成された問題は正解を必要としません。教師が解ける必要すらありません。重要なのは構造です。質問が学生に正しい方向に理屈を強いれば、完璧な監督がなくても勾配信号が現れます。学びは模倣ではなく、闘いを通じて生まれます。だからこそ、直接強化学習では失敗するSOARが機能するのです。報酬の崖に激突する代わりに、学生は自分が作った階段を登ります。実験はこれを痛いほど明確に示しています。モデルが絶対零度から始まるベンチマークでは、標準的な手法はフラットラインになります。SOARでは、モデルの内部知識に基づいてカリキュラムが再形成され、パフォーマンスは着実に向上し始めます。これは静かだが根本的な変化です。推論はモデルサイズ、データスケール、トレーニング計算によって制限されることが多いです。この論文はまったく別のボトルネックを示唆しています: 悪い学習環境。もしモデルが自分自身の踏み石を生成できれば、多くの「推論的限界」はそもそも極限ではなくなる。新しい建築もありません。余分な人間のラベルもありません。大きなモデルはなし。ただ、学びの展開に対するより良いインセンティブが欲しいだけです。不快な含意はこうです: 推論の停滞期は根本的なものではありません。それは自ら招いたものです。そして、今後の道筋はモデルにより深く考えさせることではなく、次に何を学ぶかを自分で決めさせることです。

トップ

ランキング

お気に入り