هذه الورقة في معهد ماساتشوستس للتكنولوجيا أذهلتني 🤯 تماما الورقة عن "ARC" وقد غيرت تماما نظرتي للمعيار. لم يتعامل الباحثون مع ARC كأنه لغز منطقي على الإطلاق. كانوا يتعاملون مع كل مهمة كتحول بصري. شبكة داخل → شبكة خارج. لا شيء أكثر تعقيدا من ذلك. قاموا ببناء محول رؤية صغير، ودربوه من الصفر على مجموعة بيانات ARC الصغيرة، واستخدموا خدعة بسيطة على اللوحة لوضع كل مثال كصورة. ثم أضافوا تغييرات في المقاييس، والترجمات، وأساسيات بصرية سابقة تراها في أعمال الرؤية الحاسوبية الكلاسيكية. هذا هو. لا سلسلة أفكار، لا محفزات، لا حيل رمزية ذكية. مجرد نموذج ينظر إلى البكسلات ويتعلم كيف تتحرك الأشكال، تقلب، تنمو أو تنهار، أو تنتهي أو تنتقل. الجزء الغريب؟ هذا الطراز الصغير يصل إلى 54.5٪ وحده و60.4٪ عند دمجه مع U-Net. هذا تقريبا متوسط الأداء البشري مع نموذج يتناسب مع حجم تطبيق صغير للهواتف المحمولة. رؤية ARC تحل بهذه الطريقة يجعل المعيار بأكمله يبدو مختلفا. فجأة تبدو المهام كأنها خرائط صور بدلا من قواعد مخفية. مهام الانعكاس تبدو فعليا كأنها انعكاسات. مهام التناظر تبدو كأنها تماثل. مهام الجاذبية تبدو كقطع "تسقط" مباشرة على القماش. ...