RL untuk penalaran sering mengandalkan verifikator - bagus untuk matematika, tetapi rumit untuk penulisan kreatif atau penelitian terbuka. Temui RARO: paradigma baru yang mengajarkan LLM untuk bernalar melalui permainan permusuhan alih-alih verifikasi. Tidak ada verifikasi. Tidak ada lingkungan. Hanya demonstrasi. 🧵👇