熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
每次我看到新的「尖端」基準分數時,我都會進行一個簡單的思維實驗。如果 AI 是金錢,那麼 MMLU 上的每一個準確度點都是一個薪資決策、一個信用額度、一筆交易、一個臨床標記。今天的基準測試把模型當作考試周的學生。MMLU 的準確率是 88%,HumanEval 是隨便的百分比,競技場的勝率,但幾乎沒有人問在模型實際進行有償工作時最重要的問題。這個確切的大腦,在這個確切的狀態下,是否正確地產生了這個答案?
我們已經知道忽略這一層會發生什麼。在 2021-2022 年的晶片短缺期間,供應鏈模型在多年來一直「足夠好」的情況下卻突然崩潰。它們不斷推薦在經濟上毫無意義的計劃,因為世界在它們之下發生了變化,而沒有人能夠及時注意到。最近,Claude 的用戶發現,在 Anthropic 承認有三個獨立的基礎設施錯誤悄悄地損壞了回應之前,已經出現了幾週的輸出質量下降。許多這樣的案例被方便地(幾乎是過於方便地)忽視了。
在 Ambient,我們開始將這視為可以衡量的東西。我們自己的 Gradeschool Math 實驗採用簡單的算術,顯示前沿模型在應該視為基本任務的任務上搖擺的頻率。一旦你看到某些「AI 收入」幻燈片在沒有兄弟幻燈片的情況下看起來不完整:一個是經過驗證的推理(我用簡單的術語定義為能夠證明哪個模型、哪個權重、在什麼時間回答了哪個提示)。如果 AI 要在薪資、風險和運營中扮演中介角色,基準測試必須成熟,而準確性是入場券。在經濟激勵下的可驗證行為才是真正的考試。

熱門
排行
收藏

