Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Vì OpenAI không cập nhật Hình 7 từ GDPval dựa trên tỷ lệ thành công của GPT-5.2 trong các nhiệm vụ dài hạn, tôi đã sử dụng GPT-5.2 Pro để làm điều đó. Biểu đồ giả định quy trình là: ủy thác các nhiệm vụ dài cho AI, đánh giá đầu ra trong một giờ, sau đó quyết định thử lại hoặc từ bỏ & tự làm.

Bản gốc (GPT-5 có tỷ lệ thắng 39% so với các chuyên gia con người, GPT-5.2 khoảng 72%)

165

Hàng đầu

Thứ hạng

Yêu thích