熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
結果顯示,AI已經能夠完成65%的專業任務...
Nvidia讓38位博士和MBA花費超過10小時創建基準測試。
他們在實際工作中測試了40多個模型,而不是學術練習。這是真正的工作,初級分析師和研究人員每天都在做。
GPT-5的總分為65.9%。
他們以64.4%的準確率提取事實。需要識別RTX作為最大的國防部承包商?發現IFFIm通過疫苗債券籌集了35億美元?模型主要從文件中提取具體信息,即使這些信息埋藏在數十頁中。
邏輯推理的準確率為66.2%。他們能夠跟隨多步推導,正確應用公式,驗證因果鏈。當你需要遵循既定框架進行系統分析時,模型能夠三次中有兩次提供正確的結果。
驚喜的贏家:諮詢框架的準確率為80%。模型成功地結構化市場進入分析、競爭評估和戰略建議。他們理解波特的五力分析不僅僅是列出競爭對手,而是分析議價能力的動態。
化學問題?成功率為70.6%。模型處理反應機制、合成路徑和達到平衡的計算,這對大多數非專家來說都是挑戰。他們在計算摩爾濃度、預測產物、平衡方程式方面的表現達到了研究生課程的水平。
即使在金融領域,模型的表現較弱,準確率為63.7%,但他們仍能成功完成大多數估值模型,解釋證券化結構,並撰寫連貫的投資備忘錄。這幾乎是三分之二的MBA級金融分析正確處理。
ProfBench通過在四個專業領域進行測試,使用7347個專家編寫的標準來揭示這一點。
與僅限於單一領域的狹隘基準不同,它捕捉了知識工作的廣度。而且每次評估只需12美元(相比PaperBench的8000美元),任何研究人員都可以測量實際能力。
當然,模型在專業格式(65.3%)、物理推導(49.3%)方面仍然存在困難,並且尚未能夠瀏覽1000頁的內容。但我們已經跨越了一個門檻,AI能夠正確處理大多數專業任務。
不是完美的。不是完全的。但65%足以根本改變知識工作的進行方式。

熱門
排行
收藏

