これはかっこいい。2026年5月までには、誰でもprime-rl/verifiers、Tinker、SkyRL、Slimeなどの組み合わせで~あらゆるタスク用のカスタムモデルを訓練できるようになると予測しています。 堀は、どのタスクをRLすべきか、データや環境の魔法を把握することになります