📣新しい紙!人間のフィードバックには何が含まれていますか?(WIMHF) 🔦 人間のフィードバックは、自信過剰やお世辞など、LLM に予期しない/有害な変化を引き起こす可能性があります。これらの行動を事前に予測するにはどうすればよいでしょうか? SAEを使用して、WIMHFはこれらの信号をプリファレンスデータから自動的に抽出します。