Ini membuat saya 🤯 terpesona Saya baru saja membaca makalah MIT tentang ARC dan itu benar-benar mengubah cara saya melihat tolok ukur. Para peneliti sama sekali tidak memperlakukan ARC seperti teka-teki logika. Mereka memperlakukan setiap tugas sebagai transformasi visual. Kisi masuk → kisi-kisi. Tidak ada yang lebih rumit dari itu. Mereka membangun Vision Transformer kecil, melatihnya dari awal pada kumpulan data kecil ARC, dan menggunakan trik kanvas sederhana untuk menempatkan setiap contoh seperti gambar. Kemudian mereka menambahkan perubahan skala, terjemahan, dan visual dasar sebelumnya yang akan Anda lihat dalam pekerjaan visi komputer klasik. Itu saja. Tidak ada rantai pemikiran, tidak ada petunjuk, tidak ada trik simbolis yang cerdas. Hanya model yang melihat piksel dan mempelajari bagaimana bentuk bergerak, membalik, tumbuh, menciutkan, atau terbawa. Bagian liar? Model kecil ini mencapai 54.5% saja dan 60.4% jika dikombinasikan dengan U-Net. Itu tepat di sekitar kinerja manusia rata-rata dengan model yang sesuai dengan ukuran aplikasi seluler kecil. Melihat ARC diselesaikan dengan cara ini membuat seluruh tolok ukur terasa berbeda. Tugas-tugas tiba-tiba terlihat seperti pemetaan gambar, bukan aturan tersembunyi. Tugas refleksi sebenarnya terlihat seperti pantulan. Tugas simetri terlihat seperti simetri. Tugas gravitasi terlihat seperti potongan-potongan yang "jatuh" lurus ke bawah kanvas. ...