これは本当にかっこいいですね。 この出来事で、パーソナライズされた強化学習についてより深く考えるようになりました。ベースモデルがすぐに時代遅れになりうる世界で、モデルをパーソナライズする本当の意味は何なのでしょうか? AIの現実は、新しいモデルが数週間ごとに出荷され、そのどれも前よりも優れているということです。そして、そのペースはさらに加速しており、Hugging Face Hubで見ることができます。より良いベースモデルが毎日登場する日々はもうすぐです。 ここには、ほとんど誰も取り組んでいない現実学習の研究のギャップがあります。ほとんどのLLMパーソナライゼーション研究は固定ベースモデルを前提としていますが、ベースモデルを入れ替えたときにそのパーソナライズがどうなるのかを尋ねる人はほとんどいません。Llama 3からLlama 4に移行することを考えてみてください。すべてのチューニングされた好み、報酬シグナル、LoRAが突然、昨日のモデルに結びついています。 ユーザーやチームとして、新しいモデルごとに自分の好みを繰り返し教えたくはありません。でも、あなたを知っているからといって古いものに縛られてしまいたくもありません。 これを「強化学習モデルの移行可能性」と呼べるかもしれません。モデルN上で訓練された強化学習トレース、報酬シグナル、または好み表現を、ユーザーの関与をあまり必要とせずにどのように抽出・保存し、モデルN+1に自動的に再適用できるのでしょうか?私たちはSFTでこれを解決しました。そこでは訓練データセットを保存し、将来のモデルの訓練に再利用できます。また、RLHFフェーズでも同様のバージョンに取り組みましたが、実際の環境で強化学習を導入した場合、その詳細は依然として不明です。 関連するスレッド(RLTRは推論トレース、P-RLHFやPREMIUMはモデルに依存しないユーザー表現、HCPはポータブルプリファレンスプロトコル)はありますが、フルループは私には十分に研究されていないように思えます。 これらの質問の中にはオフポリシーに関するものもありますが、他は能力とパーソナライズの違いについてです。つまり、古いカスタマイズや修正のうち、新しいモデルがすでに対応しているものと、実際にユーザーやチームごとにデフォルトで解決されるものはどれかということです。今はスキルを蓄積しつつ、現実学習では書かれた指導レベルを超えて拡張できる、という設定です。 確かにいくつか見逃した仕事があるので、このトピックに関する良い作品があればコメント欄でぜひ投稿してください。