Vì OpenAI không cập nhật Hình 7 từ GDPval dựa trên tỷ lệ thành công của GPT-5.2 trong các nhiệm vụ dài hạn, tôi đã sử dụng GPT-5.2 Pro để làm điều đó. Biểu đồ giả định quy trình là: ủy thác các nhiệm vụ dài cho AI, đánh giá đầu ra trong một giờ, sau đó quyết định thử lại hoặc từ bỏ & tự làm.
Bản gốc (GPT-5 có tỷ lệ thắng 39% so với các chuyên gia con người, GPT-5.2 khoảng 72%)
165