Ten artykuł z MIT po prostu mnie zszokował 🤯 Artykuł dotyczy "ARC" i całkowicie zmienił moje postrzeganie benchmarku. Badacze nie traktowali ARC jak łamigłówki logicznej. Traktowali każde zadanie jako wizualną transformację. Siatka wejściowa → siatka wyjściowa. Nic bardziej skomplikowanego. Zbudowali mały Vision Transformer, wytrenowali go od podstaw na małym zbiorze danych ARC i użyli prostego triku z płótnem, aby umieścić każdy przykład jak obraz. Następnie dodali zmiany skali, translacje i podstawowe priorytety wizualne, które można zobaczyć w klasycznej pracy nad wizją komputerową. I to wszystko. Brak łańcucha myślenia, brak podpowiedzi, brak sprytnych sztuczek symbolicznych. Po prostu model patrzący na piksele i uczący się, jak kształty się poruszają, obracają, rosną, zapadają lub przenoszą. Najdziksza część? Ten mały model osiąga 54,5% samodzielnie i 60,4% w połączeniu z U-Net. To jest mniej więcej na poziomie średniej wydajności ludzkiej z modelem, który mieści się w rozmiarze małej aplikacji mobilnej. Widzenie ARC rozwiązane w ten sposób sprawia, że cały benchmark wydaje się inny. Zadania nagle wyglądają jak mapowania obrazów zamiast ukrytych reguł. Zadania odbicia rzeczywiście wyglądają jak odbicia. Zadania symetrii wyglądają jak symetria. Zadania grawitacyjne wyglądają jak kawałki „spadające” prosto w dół płótna. ...