解釈すると、トレーニング後のウェイトはプレトレーニング中に見たすべてのタスクとほぼ同じ距離になる(モデルはすべてのタスクを見ているので、そのタスクを自分の方に引き寄せている)。この方法は重みを摂動し、どの摂動がネットワークをタスク固有の重みに近づけるかを見るだけです。まるで本当に安物のローラみたいだ これは、ポストトレーニングが知識を追加するのではなく、単にプレトレーニングの分布を彫り込むだけだという観察にもつながっています
Yulu Gan
Yulu Gan3月13日 23:41
単純にLLMにガウスノイズを加え(1ステップ—反復なし、学習率なし、勾配なし)、アンサンブル化することで、数学推論、コーディング、執筆、化学の課題において標準的なGRPO/PPOと同等かそれ以上の性能を達成できます。このアルゴリズムはRandOptと呼んでいます。 これが特定のモデルに限定されないことを確認するため、Qwen、Llama、OLMo3、VLMでテストしました。 これは何が原因なのでしょうか?私たちは、事前学習済みLLM周辺のガウス探索近傍では、多様なタスクエキスパートが密に分布していることを発見しました。これは私たちが「ニューラルシケッツ」と呼ぶ領域です。 論文: コード: ウェブサイト:
摂動重量は高温でのランダムな転移に例えられています。これは反復的に(GRPOのように)できると思います 半径が大きい摂動重み -> より優れた性能を持つものを選ぶ ->半径が減少し続けます これにより作業の精度は*本来*向上するはずです @yule_gan試しましたか?
36