結果顯示,AI已經能夠完成65%的專業任務... Nvidia讓38位博士和MBA花費超過10小時創建基準測試。 他們在實際工作中測試了40多個模型,而不是學術練習。這是真正的工作,初級分析師和研究人員每天都在做。 GPT-5的總分為65.9%。 他們以64.4%的準確率提取事實。需要識別RTX作為最大的國防部承包商?發現IFFIm通過疫苗債券籌集了35億美元?模型主要從文件中提取具體信息,即使這些信息埋藏在數十頁中。 邏輯推理的準確率為66.2%。他們能夠跟隨多步推導,正確應用公式,驗證因果鏈。當你需要遵循既定框架進行系統分析時,模型能夠三次中有兩次提供正確的結果。 驚喜的贏家:諮詢框架的準確率為80%。模型成功地結構化市場進入分析、競爭評估和戰略建議。他們理解波特的五力分析不僅僅是列出競爭對手,而是分析議價能力的動態。 化學問題?成功率為70.6%。模型處理反應機制、合成路徑和達到平衡的計算,這對大多數非專家來說都是挑戰。他們在計算摩爾濃度、預測產物、平衡方程式方面的表現達到了研究生課程的水平。 即使在金融領域,模型的表現較弱,準確率為63.7%,但他們仍能成功完成大多數估值模型,解釋證券化結構,並撰寫連貫的投資備忘錄。這幾乎是三分之二的MBA級金融分析正確處理。 ProfBench通過在四個專業領域進行測試,使用7347個專家編寫的標準來揭示這一點。 與僅限於單一領域的狹隘基準不同,它捕捉了知識工作的廣度。而且每次評估只需12美元(相比PaperBench的8000美元),任何研究人員都可以測量實際能力。 當然,模型在專業格式(65.3%)、物理推導(49.3%)方面仍然存在困難,並且尚未能夠瀏覽1000頁的內容。但我們已經跨越了一個門檻,AI能夠正確處理大多數專業任務。 不是完美的。不是完全的。但65%足以根本改變知識工作的進行方式。