Dieses MIT-Papier hat mich einfach umgehauen 🤯 Das Papier handelt von "ARC" und hat meine Sicht auf den Benchmark völlig verändert. Die Forscher haben ARC überhaupt nicht wie ein Logikrätsel behandelt. Sie haben jede Aufgabe als visuelle Transformation betrachtet. Raster rein → Raster raus. Nichts komplizierteres als das. Sie haben einen kleinen Vision Transformer gebaut, ihn von Grund auf auf ARCs winzigem Datensatz trainiert und einen einfachen Leinentrick verwendet, um jedes Beispiel wie ein Bild zu platzieren. Dann haben sie Maßstabsänderungen, Übersetzungen und grundlegende visuelle Prioritäten hinzugefügt, die man in klassischer Computer Vision sieht. Das war's. Keine Ketten von Gedanken, keine Eingabeaufforderungen, keine cleveren symbolischen Tricks. Nur ein Modell, das sich Pixel ansieht und lernt, wie Formen sich bewegen, drehen, wachsen, zusammenfallen oder übertragen werden. Der verrückte Teil? Dieses winzige Modell erreicht allein 54,5 % und 60,4 %, wenn es mit einem U-Net kombiniert wird. Das liegt genau im Bereich der durchschnittlichen menschlichen Leistung mit einem Modell, das in die Größe einer kleinen mobilen App passt. ARC auf diese Weise gelöst zu sehen, lässt den gesamten Benchmark anders erscheinen. Die Aufgaben sehen plötzlich aus wie Bildzuordnungen anstatt wie versteckte Regeln. Reflexionsaufgaben sehen tatsächlich wie Reflexionen aus. Symmetrieaufgaben sehen wie Symmetrie aus. Schwerkraftaufgaben sehen aus wie Teile, die gerade nach unten auf die Leinwand „fallen“. ...