Thật lòng mà nói, tôi nghĩ họ rất trung thành với GRPO chủ yếu *bởi vì* họ đã đầu tư rất nhiều vào việc vá lỗi và hiểu nó. Họ sẵn sàng trả giá cho những chi phí như thiên lệch độ dài để có những lần lặp ngắn hơn trên dữ liệu mới. Nếu bạn không phải là DeepSeek, có thể bạn chỉ cần nhảy qua GRPO.