一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

結果顯示，AI已經能夠完成65%的專業任務... Nvidia讓38位博士和MBA花費超過10小時創建基準測試。他們在實際工作中測試了40多個模型，而不是學術練習。這是真正的工作，初級分析師和研究人員每天都在做。 GPT-5的總分為65.9%。他們以64.4%的準確率提取事實。需要識別RTX作為最大的國防部承包商？發現IFFIm通過疫苗債券籌集了35億美元？模型主要從文件中提取具體信息，即使這些信息埋藏在數十頁中。邏輯推理的準確率為66.2%。他們能夠跟隨多步推導，正確應用公式，驗證因果鏈。當你需要遵循既定框架進行系統分析時，模型能夠三次中有兩次提供正確的結果。驚喜的贏家：諮詢框架的準確率為80%。模型成功地結構化市場進入分析、競爭評估和戰略建議。他們理解波特的五力分析不僅僅是列出競爭對手，而是分析議價能力的動態。化學問題？成功率為70.6%。模型處理反應機制、合成路徑和達到平衡的計算，這對大多數非專家來說都是挑戰。他們在計算摩爾濃度、預測產物、平衡方程式方面的表現達到了研究生課程的水平。即使在金融領域，模型的表現較弱，準確率為63.7%，但他們仍能成功完成大多數估值模型，解釋證券化結構，並撰寫連貫的投資備忘錄。這幾乎是三分之二的MBA級金融分析正確處理。 ProfBench通過在四個專業領域進行測試，使用7347個專家編寫的標準來揭示這一點。與僅限於單一領域的狹隘基準不同，它捕捉了知識工作的廣度。而且每次評估只需12美元（相比PaperBench的8000美元），任何研究人員都可以測量實際能力。當然，模型在專業格式（65.3%）、物理推導（49.3%）方面仍然存在困難，並且尚未能夠瀏覽1000頁的內容。但我們已經跨越了一個門檻，AI能夠正確處理大多數專業任務。不是完美的。不是完全的。但65%足以根本改變知識工作的進行方式。