Chúng ta đã tiến xa trong việc ổn định đào tạo RL không đồng bộ Không lâu trước đây, grpo ngây thơ sẽ chỉ bị sập khi biên dịch torch do sự không khớp. Nhưng bây giờ chúng ta có thể đi rất xa khỏi chính sách để xử lý RL tác động Có rất nhiều chi tiết quan trọng trong việc tính toán tổn thất prime-rl, việc bật cải tiến ổn định mới nhất của chúng tôi trong một số lần chạy đã tạo ra sự khác biệt lớn trong sự không khớp kl.
hầu hết là từ @Grad62304977 tìm kiếm alpha trong bài báo gần đây
119