construí uma habilidade de código claude que faz treinamento RL no @PrimeIntellect de ponta a ponta tu dás um nome de conjunto de dados. ele cuida de tudo — função de recompensa, validação, avaliação, envio para o hub, submissão de treinamento um prompt -> trabalho em execução. "Construa um ambiente para cais/mmlu álgebra abstrata, use Qwen/Qwen3-30B-Instruct-2507, 1000 passos, e envie o trabalho de treinamento." link nos comentários