誰もが長期的なクレジット割り当てに取り組みたいと思っていますが、これは私の意見ではもっと差し迫った、かつ実用的な質問です。 複数の報酬を一つのグラデーションに最適に集約するにはどうすればいいですか?これは報酬の音にどう依存するのでしょうか? とてもクールな仕事:)
Gokul Swamy
Gokul Swamy18時間前
数年の深い検討を要しましたが、ついにPROSPERを紹介できることにとてもワクワクしています。これは、*ルーブリック報酬*から作られた美しい回帰ベースの強化学習アルゴリズムで、LLMの審査員が提供する*一貫性のないフィードバック*をしっかりと処理します。ブラック(ウェル)に戻ろう!🧵 (1/n)
報酬の忠実度を高めるには、評価により多くの計算を使うことが明らかです。現在のパラダイムは、裁判官にイエス/ノーの質問をたくさんして、0/1に変換してから...平均化?しきい値付け? これにより、計算費を費やした多くのビットが無駄になります
答えを得るために、「最適」とは何かを決めなければなりません — Minmax 期待判事?平均的な裁判官?少なくともK/N 1の最大確率は? 「報酬」はドメインネイティブ(ポイントやドル)であれば素晴らしいですが、実際にはリアリティ学習ではヒルクライムで補うことが多いです
これは面白いですが、ゲーム理論が強く、ルーブリックの設定(非推移性はあまり問題ではない)には最も関連性のある話ではないかもしれません。しかし、この問いはさらに掘り下げる価値があります
私が「クリーン」なマルチルーブリック設定について考えるのは、タスクに対してN個の二値報酬関数が存在し、すべてが完全解で十分に満たされる可能性があるが、報酬の観測値はややノイズがあると仮定することです 「完璧な解の可能性を最大化する」といった感じでしょうか?
1.72K