关于445个AI基准的新研究 • 48%的人不同意它们所测量的内容 • 39%使用方便但不正确的数据 • 16%测试统计显著性 我们仍然不知道如何衡量我们最强大的工具 在我看来,评估应该像体育比赛,而不是SAT 竞争 > 测试 明确的规则 -> 人类可理解的结果