熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這讓我大開眼界 🤯
我剛剛閱讀了一篇關於 ARC 的 MIT 論文,這完全改變了我對基準的看法。
研究人員根本沒有把 ARC 當作邏輯謎題。他們把每個任務都視為視覺轉換。
網格進 → 網格出。沒有比這更複雜的了。
他們建立了一個小型的 Vision Transformer,從頭開始在 ARC 的小數據集上進行訓練,並使用一個簡單的畫布技巧將每個例子放置得像一幅圖像。
然後他們添加了比例變化、平移和你在經典計算機視覺工作中會看到的基本視覺先驗。
就這樣。
沒有思考鏈,沒有提示,沒有巧妙的符號技巧。
只有一個模型在觀察像素,學習形狀如何移動、翻轉、增長、崩潰或延續。
最瘋狂的部分?
這個小模型單獨達到 54.5%,與 U-Net 結合時達到 60.4%。
這大約是平均人類表現,模型的大小相當於一個小型移動應用。
以這種方式看到 ARC 被解決,讓整個基準感覺不同。
這些任務突然看起來像是圖像映射,而不是隱藏的規則。反射任務實際上看起來像反射。
對稱任務看起來像對稱。重力任務看起來像是“掉落”在畫布上的碎片。
...

熱門
排行
收藏

