Bài viết mới về việc mở rộng RL: Phân tích cẩn thận các chỉ số công khai của OpenAI cho thấy RL mở rộng kém hơn nhiều so với suy diễn: để đạt được mỗi lần tăng gấp 10 lần về tính toán suy diễn, bạn cần 100 lần tính toán huấn luyện RL. Lý do duy nhất khiến nó có hiệu quả về chi phí là bắt đầu từ một cơ sở rất nhỏ. 🧵