To mnie zszokowało 🤯 Właśnie przeczytałem artykuł z MIT na temat ARC i całkowicie zmienił moje postrzeganie tego benchmarku. Badacze nie traktowali ARC jak łamigłówki logicznej. Traktowali każde zadanie jako wizualną transformację. Siatka w → siatka out. Nic bardziej skomplikowanego. Zbudowali mały Vision Transformer, wytrenowali go od podstaw na małym zbiorze danych ARC i użyli prostego triku z płótnem, aby umieścić każdy przykład jak obraz. Następnie dodali zmiany skali, translacje i podstawowe priorytety wizualne, które można zobaczyć w klasycznej pracy nad wizją komputerową. I to wszystko. Żadnego łańcucha myślenia, żadnych podpowiedzi, żadnych sprytnych symbolicznych sztuczek. Tylko model patrzący na piksele i uczący się, jak kształty się poruszają, obracają, rosną, zapadają lub przenoszą. Najdziksza część? Ten mały model osiąga 54,5% samodzielnie i 60,4% w połączeniu z U-Netem. To mniej więcej średnia wydajność człowieka z modelem, który mieści się w rozmiarze małej aplikacji mobilnej. Widząc ARC rozwiązane w ten sposób, cały benchmark wydaje się inny. Zadania nagle wyglądają jak mapowania obrazów zamiast ukrytych reguł. Zadania odbicia rzeczywiście wyglądają jak odbicia. Zadania symetrii wyglądają jak symetria. Zadania grawitacyjne wyglądają jak kawałki „spadające” prosto w dół płótna. ...