トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
人気のあるLLM面接の質問:
「LLMのトレーニングの4段階を一から説明してください。」
(以下にステップバイステップの説明を示します)

LLMをゼロから構築するには主に4つの段階があります:
- 事前訓練
- 命令の微調整
- 好みのファインチューニング
- 推論ファインチューニング
それぞれを理解しましょう!
0️^ ランダムに初期化されたLLM
この時点でモデルは何も知りません。
「LLMって何?」と聞くと、「Peter HandとHello 448Snを試してみて」といった意味不明な答えが返ってきます。
まだデータが見られず、ただランダムな重みしか持っていません。
1️𠱔 プレトレーニング
この段階では、大規模なコーパスで次のトークンを予測できるように訓練し、LLMに言語の基礎を教えます。
こうすることで文法や世界の事実などを吸収できます。
でも会話は得意ではありません。促されるとテキストを続けるだけだからです。
2️¶ 命令の微調整
会話形式にするために、指令-応答ペアをトレーニングしてInstruction Fine-tuneを行います。これにより、プロンプトのフォローや返信のフォーマットを学ぶことができます。
今や、以下のことができるようになりました:
- 質問に答えること
- 内容の要約
- コードを書くなど。
現時点で、おそらく以下の通りです:
- インターネットアーカイブと知識の全てを活用しました。
- 人間ラベル付けの命令応答データの予算。
では、このモデルをさらに改善するために何ができるでしょうか?
ここで強化学習(RL)の領域に入ります。
3️𠱄 ファインチューニング(PFT)
ChatGPTで「どちらの回答が好みですか?」という画面を見たことがあるはずです。
これは単なるフィードバックのためだけでなく、貴重な人間の好みデータでもあります。
OpenAIはこれを使い、好みの微調整を使ってモデルを微調整しています。
PFTにおいて:
ユーザーは2つの回答から選択し、人間の好みデータを作成します。
報酬モデルは人間の好みを予測するように訓練され、LLMは強化学習(RL)で更新されます。
上記のプロセスはRLHF(人間のフィードバックを伴う強化学習)と呼ばれ、モデルの重みを更新するアルゴリズムはPPOと呼ばれます。
それは「正解」がなくても人間と調和することをLLMに教えます。
しかし、LLMはさらに改善できます。
4️そして推論ファインチューニング
推論課題(数学、論理など)では、通常は一つの正解と、答えを得るための一連の手順が決まっています。
だから人間の好みは必要なく、正しさを信号として使うことができます。
ステップス:
- モデルがプロンプトへの回答を生成する。
- その答えは既知の正解と比較されます。
- 正しさに基づいて報酬を割り当てます。
これを「検証可能な報酬を伴う強化学習」と呼びます。
DeepSeekによるGRPOは人気のある技術です。
これらがLLMをゼロからトレーニングする4つの段階でした。
- ランダムに初期化されたモデルから始める。
- 大規模なコーパスで事前学習する。
- 命令のファインチューニングを使ってコマンドに従うようにする。
- 好みと推論のファインチューニングを用いて応答を鋭くする。
👉 次はあなたにお任せします:LLMをどのようにさらに向上させますか?




12.35K
トップ
ランキング
お気に入り

