あなたはGoogleのリサーチサイエンティストの面接を受けていますね。 インタビュアー:数学が苦手な基本のLLMがあります。数学と推論の強豪にするにはどうすればいいですか? あなた:いくつか問題をラベル付けしてモデルを微調整します。 面接終了。 見落とした内容は以下の通りです:
出力が検証可能であれば、ラベルは任意となります。 数学、コード、論理は自動的にチェック・検証されます。 この事実を使って、手動でラベル付けせずに推論モデルを構築しましょう。 以下を使います: - パラメータ効率の良い微調整のための@UnslothAI。 - GRPOを適用するためにTRLを@HuggingFace。 行きましょう!🚀
GRPOとは? グループ相対ポリシー最適化は、決定論的報酬関数を使用して数学および推論タスクのLLMを微調整し、ラベル付けされたデータの必要性を排除する強化学習手法です。 コードに入る前に、GRPO の概要を簡単に説明します。
1️⃣ モデルをロードする まず、Unslothを使用してQwen3-4B-Baseとそのトークナイザーをロードします。 ここでは、他のオープンウェイト LLM を使用できます。 これを👇チェックしてください
2️⃣ LoRA構成の定義 LoRA を使用して、モデル全体の重みを微調整しないようにします。このコードでは、次のように指定して Unsloth の PEFT を使用します。 - モデル - LoRA低ランク(r) - 微調整用モジュールなど これを👇チェックしてください
3️⃣ データセットを作成する Open R1 Mathデータセット(数学の問題データセット)をロードし、推論用にフォーマットします。 各サンプルには次のものが含まれます。 - 構造化推論を強制するシステムプロンプト - データセットからの質問 - 必要な形式の回答 このコード👇を確認してください
4️⃣ 報酬関数を定義する GRPO では、決定論的関数を使用して応答を検証し、報酬を割り当てます。 手動ラベリングは不要です! 報酬関数: - 形式を正確に一致させる - おおよその一致形式 - 答えを確認する - 番号を確認する これがいいと思います 👇
5️⃣ GRPOを使用してトレーニングを開始する データセットと報酬関数の準備ができたので、GRPO を適用します。 HuggingFace TRLは、GRPOConfigとGRPOTrainerの形式で、GRPO図で説明したすべてのものを箱から出してすぐに提供します。 これがいいと思います👇
6️⃣比較 繰り返しになりますが、GRPO がベース モデルを推論の大国に変えた方法がわかります。 これがいいと思います👇
結論を出す前に、重要な質問に答えさせてください。 強化ファインチューニング (RFT) と教師ありファインチューニング (SFT) はどのような場合に使用する必要がありますか? 答えを提供するためにこの図を作成しました。
157.4K