關於445個AI基準的新研究 • 48%的人不同意它們測量的內容 • 39%使用方便但不正確的數據 • 16%測試統計顯著性 我們仍然不知道如何衡量我們最強大的工具 在我看來,將評估視為運動,而不是SAT 競爭 > 測試 明確的規則 -> 人類可理解的結果