人気のあるLLM面接の質問: 「LLMのトレーニングの4段階を一から説明してください。」 (以下にステップバイステップの説明を示します)
LLMをゼロから構築するには主に4つの段階があります: - 事前訓練 - 命令の微調整 - 好みのファインチューニング - 推論ファインチューニング それぞれを理解しましょう! 0️^ ランダムに初期化されたLLM この時点でモデルは何も知りません。 「LLMって何?」と聞くと、「Peter HandとHello 448Snを試してみて」といった意味不明な答えが返ってきます。 まだデータが見られず、ただランダムな重みしか持っていません。 1️𠱔 プレトレーニング この段階では、大規模なコーパスで次のトークンを予測できるように訓練し、LLMに言語の基礎を教えます。 こうすることで文法や世界の事実などを吸収できます。 でも会話は得意ではありません。促されるとテキストを続けるだけだからです。 2️¶ 命令の微調整 会話形式にするために、指令-応答ペアをトレーニングしてInstruction Fine-tuneを行います。これにより、プロンプトのフォローや返信のフォーマットを学ぶことができます。 今や、以下のことができるようになりました: - 質問に答えること - 内容の要約 - コードを書くなど。 現時点で、おそらく以下の通りです: - インターネットアーカイブと知識の全てを活用しました。 - 人間ラベル付けの命令応答データの予算。 では、このモデルをさらに改善するために何ができるでしょうか? ここで強化学習(RL)の領域に入ります。 3️𠱄 ファインチューニング(PFT) ChatGPTで「どちらの回答が好みですか?」という画面を見たことがあるはずです。 これは単なるフィードバックのためだけでなく、貴重な人間の好みデータでもあります。 OpenAIはこれを使い、好みの微調整を使ってモデルを微調整しています。 PFTにおいて: ユーザーは2つの回答から選択し、人間の好みデータを作成します。 報酬モデルは人間の好みを予測するように訓練され、LLMは強化学習(RL)で更新されます。 上記のプロセスはRLHF(人間のフィードバックを伴う強化学習)と呼ばれ、モデルの重みを更新するアルゴリズムはPPOと呼ばれます。 それは「正解」がなくても人間と調和することをLLMに教えます。 しかし、LLMはさらに改善できます。 4️そして推論ファインチューニング 推論課題(数学、論理など)では、通常は一つの正解と、答えを得るための一連の手順が決まっています。 だから人間の好みは必要なく、正しさを信号として使うことができます。 ステップス: - モデルがプロンプトへの回答を生成する。 - その答えは既知の正解と比較されます。 - 正しさに基づいて報酬を割り当てます。 これを「検証可能な報酬を伴う強化学習」と呼びます。 DeepSeekによるGRPOは人気のある技術です。 これらがLLMをゼロからトレーニングする4つの段階でした。 - ランダムに初期化されたモデルから始める。 - 大規模なコーパスで事前学習する。 - 命令のファインチューニングを使ってコマンドに従うようにする。 - 好みと推論のファインチューニングを用いて応答を鋭くする。 👉 次はあなたにお任せします:LLMをどのようにさらに向上させますか?
12.35K