نظرا لأن OpenAI لم يحدث الشكل 7 من GDPval نظرا لمعدل نجاح GPT-5.2 في المهام الطويلة، استخدمت GPT-5.2 Pro للقيام بذلك. يفترض المخطط أن العملية هي: تفويض المهام الطويلة إلى الذكاء الاصطناعي، تقييم النتائج لمدة ساعة، ثم قرر المحاولة مرة أخرى أو الاستسلام والقيام بها بنفسك.
في النسخة الأصلية (GPT-5 كان لديه معدل فوز 39٪ ضد الخبراء البشريين، بينما كان GPT-5.2 حوالي 72٪)
‏‎145‏