Claudeのコードスキルを作り、エンドツーエンドでRLトレーニングを行うことができました@PrimeIntellect データセット名を付けます。報酬機能、検証、評価、ハブプッシュ、トレーニング提出など、すべてを処理しています 1つのプロンプト -> ランニングジョブ。 「cais/mmlu抽象代数のための環境を構築し、Qwen/Qwen3-30B-Instruct-2507を使い、1000ステップを提出し、トレーニングジョブを提出してください。」 コメント欄のリンク