BF16 -> FP16 là một sửa đổi đơn giản (chỉ cần thay đổi cấu hình trong Oat) nhưng lại rất cơ bản cho sự không khớp giữa inference và training. Với FP16, phương pháp sampling PG cơ bản nhất vượt trội hơn tất cả các sửa đổi thuật toán trong BF16. Hãy suy nghĩ lại về sự ổn định của RL từ góc độ độ chính xác.🔎