GPT-5 scoret nesten 70 % i OSWorld: "OSWorld: Benchmarking av multimodale agenter for åpne oppgaver i virkelige datamiljøer" OSWorld er et første i sitt slag skalerbart, ekte datamiljø for multimodale agenter, som støtter oppgaveoppsett, utførelsesbasert evaluering og interaktiv læring på tvers av operativsystemer. Det kan tjene som et enhetlig miljø for å evaluere åpne dataoppgaver som involverer vilkårlige apper (f.eks. oppgaveeksempler i fig. ovenfor).