.@NVIDIA 刚刚使用一个小型的 4B 模型实现了惊人的突破,在 ARC AGI 2 上的表现超过了更大规模的系统,准确率为 29.72% / 每个任务 $0.20! 通过依赖合成数据和测试时训练,而不是单纯的规模扩展,NVARC 团队证明了巧妙的设计可以超越原始参数数量。这是一个令人兴奋的信号,表明高效、适应性推理可能是 AGI 进展的真正前沿——而不仅仅是越来越大的模型。 • 在官方 ARC-AGI-2 排行榜上准确率为 29.72% • 使用一个 4B 参数的模型,在同一基准测试中超越了更大、更昂贵的模型。 • 推理成本仅为每个任务 $0.20,这得益于合成数据、测试时训练和 NVIDIA NeMo 工具。
@nvidia 编辑:抱歉,分数是27.64%,我犯了个错误。但仍然令人难以置信的印象深刻
38.08K