分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

あなたはGoogleのリサーチサイエンティストの面接を受けていますね。インタビュアー:数学が苦手な基本のLLMがあります。数学と推論の強豪にするにはどうすればいいですか? あなた:いくつか問題をラベル付けしてモデルを微調整します。面接終了。見落とした内容は以下の通りです:

出力が検証可能であれば、ラベルは任意となります。数学、コード、論理は自動的にチェック・検証されます。この事実を使って、手動でラベル付けせずに推論モデルを構築しましょう。以下を使います: - パラメータ効率の良い微調整のための@UnslothAI。 - GRPOを適用するためにTRLを@HuggingFace。行きましょう！🚀

GRPOとは? グループ相対ポリシー最適化は、決定論的報酬関数を使用して数学および推論タスクのLLMを微調整し、ラベル付けされたデータの必要性を排除する強化学習手法です。コードに入る前に、GRPO の概要を簡単に説明します。

1️⃣ モデルをロードするまず、Unslothを使用してQwen3-4B-Baseとそのトークナイザーをロードします。ここでは、他のオープンウェイト LLM を使用できます。これを👇チェックしてください

2️⃣ LoRA構成の定義 LoRA を使用して、モデル全体の重みを微調整しないようにします。このコードでは、次のように指定して Unsloth の PEFT を使用します。 - モデル - LoRA低ランク(r) - 微調整用モジュールなどこれを👇チェックしてください

3️⃣ データセットを作成する Open R1 Mathデータセット(数学の問題データセット)をロードし、推論用にフォーマットします。各サンプルには次のものが含まれます。 - 構造化推論を強制するシステムプロンプト - データセットからの質問 - 必要な形式の回答このコード👇を確認してください

4️⃣ 報酬関数を定義する GRPO では、決定論的関数を使用して応答を検証し、報酬を割り当てます。手動ラベリングは不要です! 報酬関数: - 形式を正確に一致させる - おおよその一致形式 - 答えを確認する - 番号を確認するこれがいいと思います 👇

5️⃣ GRPOを使用してトレーニングを開始するデータセットと報酬関数の準備ができたので、GRPO を適用します。 HuggingFace TRLは、GRPOConfigとGRPOTrainerの形式で、GRPO図で説明したすべてのものを箱から出してすぐに提供します。これがいいと思います👇

6️⃣比較繰り返しになりますが、GRPO がベースモデルを推論の大国に変えた方法がわかります。これがいいと思います👇

結論を出す前に、重要な質問に答えさせてください。強化ファインチューニング (RFT) と教師ありファインチューニング (SFT) はどのような場合に使用する必要がありますか? 答えを提供するためにこの図を作成しました。

157.4K

トップ

ランキング

お気に入り