熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們在 Opus 4.5 上進行了最新的 Box AI 高級推理評估,使用中等和高努力程度,並看到比 Opus 4.1 提升了 20 個百分點。令人難以置信的是,Opus 4.1 只在 3 個月前推出。
這次評估更接近於模擬知識工作者在其企業文件中作為一個離散任務所做的工作。這可能是一位分析公司的財務分析師,或是一位為客戶進行研究的顧問。
該評估根據模型如何回答一個複雜的商業提示來評估其在多個標準上的表現。我們在這次評估中仍處於早期階段,並將擴展到更廣泛的行業和用例。
顯而易見的是,這些最新的推理模型在每次更新中都將在經濟上有用的工作中變得越來越好。這最初是從編碼開始的,但我們將在醫療保健、法律、金融服務、製造業以及許多其他領域看到類似的升級。

熱門
排行
收藏

