đã xây dựng một kỹ năng mã claude thực hiện đào tạo RL trên @PrimeIntellect từ đầu đến cuối bạn cung cấp tên tập dữ liệu. nó xử lý mọi thứ — hàm thưởng, xác thực, đánh giá, đẩy lên hub, nộp đào tạo một lệnh nhắc -> chạy công việc. "Xây dựng một môi trường cho cais/mmlu đại số trừu tượng, sử dụng Qwen/Qwen3-30B-Instruct-2507, 1000 bước, và nộp công việc đào tạo." liên kết trong bình luận