🚨GROK 在 "人类的最后考试" 中以 26.9% 的成绩完成,没有任何工具 这个缩放图表讲述了这个故事:更多的计算 = 更好的表现。 Grok 仅凭纯粹的推理就击败了全球最难的学术基准,超过四分之一。 没有计算器,没有外部帮助。 只有原始的 AI 智力在处理 2,500 道人类知识各个领域的问题。 大多数人即使有工具也会在这个测试中失败。 Grok 是在蒙着眼睛完成的。 来源:@xai @elonmusk
Mario Nawfal
Mario Nawfal7月10日 12:14
🚨"人类的最后考试"发布:2500个问题区分真实的AI与伪装者 X刚刚揭示了终极学术挑战——一个如此全面的基准,旨在成为最后一次所需的测试。 数学占41%,其次是科学和人文学科。 名字说明了一切:这是终结所有考试的考试。一旦AI通过了这个测试,还有什么需要证明的呢? 我们正在构建这个测试,以确定机器何时正式超越我们。 来源:@xai @elonmusk
89.59K