Menggunakan @PrimeIntellect untuk seluruh pipa RL kami di GLM 4.6V dan Nemotron Security Finetunes dan Man, keyakinan saya tidak pernah sekuat itu semudah ini Prime-RL + Verifier + ENV Hub + Pelatihan yang dihosting (tidak menggunakan karena saya memiliki kredit 😋 modal tetapi itu bagus) dan Anda benar-benar dapat melatih model Anda tentang apa pun dan hanya memulai dalam waktu kurang dari 15 menit jika tidak lebih cepat