这篇麻省理工学院的论文让我大开眼界 🤯 这篇论文讨论了“ARC”,它完全改变了我对基准的看法。 研究人员根本没有把ARC当作逻辑难题。他们把每个任务都视为视觉变换。 网格输入 → 网格输出。没有比这更复杂的了。 他们构建了一个小型视觉变换器,从头开始在ARC的小数据集上进行训练,并使用一个简单的画布技巧将每个示例放置得像一幅图像。 然后他们添加了尺度变化、平移和经典计算机视觉工作中会看到的基本视觉先验。 就这样。 没有链式思维,没有提示,没有巧妙的符号技巧。 只是一个模型在观察像素,学习形状如何移动、翻转、增长、收缩或延续。 最疯狂的部分? 这个小模型单独达到54.5%的准确率,与U-Net结合时达到60.4%。 这大约是普通人类表现的平均水平,而这个模型的大小仅相当于一个小型移动应用。 以这种方式看到ARC的解决方案让整个基准感觉不同。 这些任务突然看起来像是图像映射,而不是隐藏规则。反射任务实际上看起来像反射。 对称任务看起来像对称。重力任务看起来像是“直线下落”到画布上的碎片。 ...