Blog của OpenAI () chỉ ra rằng các mô hình ngôn ngữ ngày nay thường xuyên tạo ra thông tin sai lệch vì việc đào tạo và đánh giá thưởng cho việc đoán thay vì thừa nhận sự không chắc chắn. Điều này đặt ra một câu hỏi tự nhiên: liệu chúng ta có thể giảm thiểu sự tạo ra thông tin sai lệch mà không làm giảm tính hữu ích không?🤔 RL theo chính sách với Phần thưởng Tăng cường Tìm kiếm Nhị phân (RAR) của chúng tôi có thể cải thiện tính chính xác (giảm 40% thông tin sai lệch) trong khi vẫn bảo tồn tính hữu ích của mô hình (tỷ lệ thắng và độ chính xác) của các mô hình ngôn ngữ đã được đào tạo đầy đủ, có khả năng như Qwen3-8B. [1/n]