Deoarece OpenAI nu a actualizat Figura 7 din GDPval, având în vedere rata de succes a GPT-5.2 la sarcinile de lungă durată, am folosit GPT-5.2 Pro pentru asta. Graficul presupune că procesul este: delegă sarcini lungi către AI, evaluează rezultatul timp de o oră, apoi decide să încerci din nou sau să renunți și să faci singur.
Original (GPT-5 avea o rată de victorie de 39% împotriva experților umani, GPT-5.2 era în jur de 72%)
159