热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这让我大吃一惊 🤯
我刚刚阅读了一篇关于 ARC 的 MIT 论文,它完全改变了我对基准测试的看法。
研究人员根本没有把 ARC 当作逻辑难题。他们把每个任务都视为一种视觉转换。
网格输入 → 网格输出。没有比这更复杂的了。
他们构建了一个小型视觉变换器,从头开始在 ARC 的小数据集上进行训练,并使用一个简单的画布技巧将每个示例放置成图像。
然后他们添加了尺度变化、平移和经典计算机视觉工作中会看到的基本视觉先验。
就这样。
没有思维链,没有提示,没有巧妙的符号技巧。
只是一个模型在观察像素,学习形状如何移动、翻转、增长、收缩或传递。
疯狂的部分?
这个小模型单独达到 54.5%,与 U-Net 结合时达到 60.4%。
这大约是普通人类表现的平均水平,而这个模型的大小仅相当于一个小型移动应用。
以这种方式看到 ARC 被解决,使整个基准测试感觉不同。
这些任务突然看起来像图像映射,而不是隐藏规则。反射任务实际上看起来像反射。
对称任务看起来像对称。重力任务看起来像“掉落”在画布上的物体。
...

热门
排行
收藏

