貨幣を評価スカラーとしてとは、次のようになります: - LLMアクションがランク付け可能になる - ミスには測定可能なペナルティが伴います - 報酬はツール間で可換的である
私の考えでは、お金はエージェント的なタスクに対する強いアラインメントのシグナルとして機能すべきだと思います。 値が符号化されているだけでなく、以下のような理由でさらに重要です: - 希少性の強制 - 機会費用の創出 - 評価のための汎用単位を提供する これは従来のRLHFとは全く異なるポストトレーニングの枠組みです
22