GPT-5 在 OSWorld 中的得分接近 70%: "OSWorld:在真實計算機環境中對多模態代理進行開放式任務的基準測試" OSWorld 是首個可擴展的真實計算機環境,專為多模態代理設計,支持任務設置、基於執行的評估和跨操作系統的互動學習。它可以作為評估涉及任意應用程序的開放式計算任務的統一環境(例如,上述圖中的任務示例)。