Kami datang jauh dalam stabilitas pelatihan rl asinkron Belum lama ini grpo naif akan mogok dengan kompilasi obor karena ketidakcocokan. Tapi sekarang kita bisa pergi sangat jauh dari kebijakan untuk menangani RL agen Banyak detail yang sangat penting dalam perhitungan kerugian prime-rl, mengaktifkan peningkatan stabilitas terbaru kami pada beberapa lari kami membuat perbedaan besar dalam ketidakcocokan KL
sebagian besar berasal dari @Grad62304977 menemukan alpha dalam makalah baru-baru ini
123