Das hat mich umgehauen 🤯 Ich habe gerade ein MIT-Papier über ARC durchgelesen und es hat meine Sicht auf den Benchmark komplett verändert. Die Forscher haben ARC überhaupt nicht wie ein Logikrätsel behandelt. Sie haben jede Aufgabe als visuelle Transformation betrachtet. Raster rein → Raster raus. Nichts komplizierteres als das. Sie haben einen kleinen Vision Transformer gebaut, ihn von Grund auf auf ARCs winzigem Datensatz trainiert und einen einfachen Leinentrick verwendet, um jedes Beispiel wie ein Bild zu platzieren. Dann haben sie Maßstabsänderungen, Übersetzungen und grundlegende visuelle Priors hinzugefügt, die man in klassischer Computer Vision sieht. Das war's. Keine Ketten von Gedanken, keine Eingabeaufforderungen, keine cleveren symbolischen Tricks. Nur ein Modell, das sich Pixel ansieht und lernt, wie Formen sich bewegen, drehen, wachsen, zusammenfallen oder übertragen werden. Der verrückte Teil? Dieses winzige Modell erreicht allein 54,5 % und 60,4 %, wenn es mit einem U-Net kombiniert wird. Das liegt genau im Bereich der durchschnittlichen menschlichen Leistung mit einem Modell, das in die Größe einer kleinen mobilen App passt. ARC auf diese Weise gelöst zu sehen, lässt den gesamten Benchmark anders erscheinen. Die Aufgaben sehen plötzlich aus wie Bildzuordnungen anstatt wie versteckte Regeln. Reflexionsaufgaben sehen tatsächlich aus wie Reflexionen. Symmetrieaufgaben sehen aus wie Symmetrie. Schwerkraftaufgaben sehen aus wie Teile, die „gerade“ nach unten auf die Leinwand fallen. ...