これには衝撃🤯を受けました 私は最近MITのARCに関する論文を読みましたが、ベンチマークの見方が完全に変わりました。 研究者たちはARCを論理パズルのように扱っていませんでした。彼らはすべての作業を視覚的な変容として扱いました。 グリッドイン→グリッドアウト。それ以上に複雑なことはありません。 彼らは小さなVision Transformerを作り、ARCの小さなデータセットでゼロから訓練し、シンプルなキャンバスのトリックを使って各例を画像のように配置しました。 さらにスケールの変化や翻訳、古典的なコンピュータビジョン作品で見られる基本的な視覚的事前処理も加えました。 それです。 思考の連鎖も、促しも、巧妙な象徴的なトリックもない。 ただピクセルを見て、形がどのように動いたり、反転したり、成長したり、崩れたり、引き継がれたりするのかを学ぶモデルに過ぎません。 ワイルドな部分は? この小さなモデルは単独で54.5%、U-Netと組み合わせると60.4%の達成率を記録しています。 これは、小さなモバイルアプリサイズのモデルで人間の平均的なパフォーマンスに相当します。 ARCがこのように解けるのを見ると、ベンチマーク全体が違った印象になります。 タスクは突然、隠れたルールではなく画像マッピングのように見えます。リフレクションタスクは実際にリフレクションのように見えます。 対称性の課題は対称性のように見えます。重力の課題は、キャンバスの上をまっすぐ「落ちて」いく部分のように見えます。 ...