热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨GROK 在 "人类的最后考试" 中以 26.9% 的成绩完成,没有任何工具
这个缩放图表讲述了这个故事:更多的计算 = 更好的表现。
Grok 仅凭纯粹的推理就击败了全球最难的学术基准,超过四分之一。
没有计算器,没有外部帮助。
只有原始的 AI 智力在处理 2,500 道人类知识各个领域的问题。
大多数人即使有工具也会在这个测试中失败。
Grok 是在蒙着眼睛完成的。
来源:@xai @elonmusk


7月10日 12:14
🚨"人类的最后考试"发布:2500个问题区分真实的AI与伪装者
X刚刚揭示了终极学术挑战——一个如此全面的基准,旨在成为最后一次所需的测试。
数学占41%,其次是科学和人文学科。
名字说明了一切:这是终结所有考试的考试。一旦AI通过了这个测试,还有什么需要证明的呢?
我们正在构建这个测试,以确定机器何时正式超越我们。
来源:@xai @elonmusk

89.59K
热门
排行
收藏