這讓我大開眼界 🤯 我剛剛閱讀了一篇關於 ARC 的 MIT 論文,這完全改變了我對基準的看法。 研究人員根本沒有把 ARC 當作邏輯謎題。他們把每個任務都視為視覺轉換。 網格進 → 網格出。沒有比這更複雜的了。 他們建立了一個小型的 Vision Transformer,從頭開始在 ARC 的小數據集上進行訓練,並使用一個簡單的畫布技巧將每個例子放置得像一幅圖像。 然後他們添加了比例變化、平移和你在經典計算機視覺工作中會看到的基本視覺先驗。 就這樣。 沒有思考鏈,沒有提示,沒有巧妙的符號技巧。 只有一個模型在觀察像素,學習形狀如何移動、翻轉、增長、崩潰或延續。 最瘋狂的部分? 這個小模型單獨達到 54.5%,與 U-Net 結合時達到 60.4%。 這大約是平均人類表現,模型的大小相當於一個小型移動應用。 以這種方式看到 ARC 被解決,讓整個基準感覺不同。 這些任務突然看起來像是圖像映射,而不是隱藏的規則。反射任務實際上看起來像反射。 對稱任務看起來像對稱。重力任務看起來像是“掉落”在畫布上的碎片。 ...