Bu beni 🤯 şaşırttı ARC üzerine bir MIT'deki makaleyi inceledim ve bu benim benchmark'ı görme şeklimi tamamen değiştirdi. Araştırmacılar ARC'yi hiç mantık bulmacası gibi ele almadılar. Her görevi görsel bir dönüşüm olarak ele aldılar. Şebeke içeride → ızgara dışarıda. Bundan daha karmaşık bir şey yoktu. Küçük bir Vision Transformer inşa ettiler, ARC'nin küçük veri setinde sıfırdan eğittiler ve her örneği bir görüntü gibi yerleştirmek için basit bir tuval numarası kullandılar. Sonra ölçek değişiklikleri, çeviriler ve klasik bilgisayar görme işlerinde gördüğünüz temel görsel öncelikler eklediler. Hepsi bu. Düşünce zinciri yok, istekler yok, zekice sembolik numaralar yok. Sadece piksellere bakan ve şekillerin nasıl hareket ettiğini, döndüğünü, büyüdüğünü, çöktüğünü veya nasıl taşındığını öğrenen bir model. Çılgın kısmı mı? Bu küçük model tek başına %54,5, U-Net ile birleştiğinde ise %60,4'e ulaşıyor. Bu, küçük bir mobil uygulama boyutuna uygun bir modelle ortalama insan performansı civarında. ARC'nin bu şekilde çözüldüğünü görmek tüm kıyasa farklı hissettiriyor. Görevler bir anda gizli kurallar yerine görüntü eşlemeleri gibi görünüyor. Yansıtma görevleri aslında yansımalar gibi görünüyor. Simetri görevleri simetriye benziyor. Yerçekimi görevleri, parçaların tuval üzerinde düz "düşen" gibi görünür. ...