分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

人気のあるLLM面接の質問: 「LLMのトレーニングの4段階を一から説明してください。」 (以下にステップバイステップの説明を示します)

LLMをゼロから構築するには主に4つの段階があります: - 事前訓練 - 命令の微調整 - 好みのファインチューニング - 推論ファインチューニングそれぞれを理解しましょう! 0️^ ランダムに初期化されたLLM この時点でモデルは何も知りません。「LLMって何?」と聞くと、「Peter HandとHello 448Snを試してみて」といった意味不明な答えが返ってきます。まだデータが見られず、ただランダムな重みしか持っていません。 1️𠱔プレトレーニングこの段階では、大規模なコーパスで次のトークンを予測できるように訓練し、LLMに言語の基礎を教えます。こうすることで文法や世界の事実などを吸収できます。でも会話は得意ではありません。促されるとテキストを続けるだけだからです。 2️¶ 命令の微調整会話形式にするために、指令-応答ペアをトレーニングしてInstruction Fine-tuneを行います。これにより、プロンプトのフォローや返信のフォーマットを学ぶことができます。今や、以下のことができるようになりました: - 質問に答えること - 内容の要約 - コードを書くなど。現時点で、おそらく以下の通りです: - インターネットアーカイブと知識の全てを活用しました。 - 人間ラベル付けの命令応答データの予算。では、このモデルをさらに改善するために何ができるでしょうか? ここで強化学習(RL)の領域に入ります。 3️𠱄ファインチューニング(PFT) ChatGPTで「どちらの回答が好みですか?」という画面を見たことがあるはずです。これは単なるフィードバックのためだけでなく、貴重な人間の好みデータでもあります。 OpenAIはこれを使い、好みの微調整を使ってモデルを微調整しています。 PFTにおいて: ユーザーは2つの回答から選択し、人間の好みデータを作成します。報酬モデルは人間の好みを予測するように訓練され、LLMは強化学習(RL)で更新されます。上記のプロセスはRLHF(人間のフィードバックを伴う強化学習)と呼ばれ、モデルの重みを更新するアルゴリズムはPPOと呼ばれます。それは「正解」がなくても人間と調和することをLLMに教えます。しかし、LLMはさらに改善できます。 4️そして推論ファインチューニング推論課題(数学、論理など)では、通常は一つの正解と、答えを得るための一連の手順が決まっています。だから人間の好みは必要なく、正しさを信号として使うことができます。ステップス： - モデルがプロンプトへの回答を生成する。 - その答えは既知の正解と比較されます。 - 正しさに基づいて報酬を割り当てます。これを「検証可能な報酬を伴う強化学習」と呼びます。 DeepSeekによるGRPOは人気のある技術です。これらがLLMをゼロからトレーニングする4つの段階でした。 - ランダムに初期化されたモデルから始める。 - 大規模なコーパスで事前学習する。 - 命令のファインチューニングを使ってコマンドに従うようにする。 - 好みと推論のファインチューニングを用いて応答を鋭くする。 👉 次はあなたにお任せします:LLMをどのようにさらに向上させますか?

12.35K

トップ

ランキング

お気に入り