スタンフォードの研究者たちが新しいプロンプト技術を開発しました! プロンプトに~20語を加えることで、次のようになります: - LLMの創造性を1.6〜2倍に高める - 人間評価の多様性を25.7%向上させる - 再訓練なしに微調整モデルを打ち破る - アライメント後に失われたLLMの創造性の66.8%を回復 RLHFのようなトレーニング後のアライメント手法は、LLMを有用かつ安全にするために設計されています。 しかし、これらの手法は意図せず出力多様性の大幅な低下(モード収縮と呼ばれる)を引き起こします。 LLMがモードに崩壊すると、他の出力よりも予測可能または典型的な応答の狭いセットを優先し始めます。 これは、LLMの学習に使われる人間の好みデータに「典型性バイアス」という隠れた欠陥があるためです。 その経緯は以下の通りです: - アノテーターはLLMからの異なる応答を評価し、後にLLMは報酬モデルを用いてこれらの人間の好みを模倣して訓練されます。 - しかし、注釈者は自然とより馴染み深く読みやすく予測可能な答えを好む傾向があります。これが典型性バイアスです。 ですから、新しく創造的な答えが同じくらい良くても、人間の好みはしばしば一般的なものに傾いてしまうのです。 このため、報酬モデルは元の(事前アラインド)モデルがすでに可能性が高いと考えた反応を増加させます。 これによりLLMの確率分布が激しく鋭くなり、モデルの創造的な出力は1つか2つの支配的で高度に予測可能な回答に縮小されます。 とはいえ、それは不可逆的な効果ではなく、LLMはアライメント後も2つの人格を持っています。 - プレトレーニング中に豊富な可能性を学んだオリジナルモデル。 - 安全性重視のポストアライメントモデル。...