Eftersom OpenAI inte uppdaterade figur 7 från GDPval med tanke på GPT-5.2:s framgångsgrad på långformatsuppgifter, använde jag GPT-5.2 Pro för att göra det. Diagrammet förutsätter att processen är: delegera långa uppgifter till AI, utvärdera resultatet i en timme, och bestäm dig sedan för att försöka igen eller ge upp och göra det själv.
Original (GPT-5 hade en vinstprocent på 39 % mot mänskliga experter, GPT-5,2 låg runt 72 %)
166