DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Ça m'a époustouflé 🤯 Je viens de lire un article du MIT sur ARC et cela a complètement changé ma perception du benchmark. Les chercheurs n'ont pas traité ARC comme un puzzle logique du tout. Ils ont considéré chaque tâche comme une transformation visuelle. Grille d'entrée → grille de sortie. Rien de plus compliqué que ça. Ils ont construit un petit Vision Transformer, l'ont entraîné depuis zéro sur le petit ensemble de données d'ARC, et ont utilisé un simple truc de toile pour placer chaque exemple comme une image. Ensuite, ils ont ajouté des changements d'échelle, des translations et des priorités visuelles de base que l'on voit dans le travail classique de vision par ordinateur. C'est tout. Pas de chaîne de pensée, pas de prompts, pas de tours symboliques astucieux. Juste un modèle regardant des pixels et apprenant comment les formes se déplacent, se retournent, grandissent, s'effondrent ou se transmettent. La partie folle ? Ce petit modèle atteint 54,5 % seul et 60,4 % lorsqu'il est combiné avec un U-Net. C'est à peu près la performance humaine moyenne avec un modèle qui tient dans la taille d'une petite application mobile. Voir ARC résolu de cette manière rend tout le benchmark différent. Les tâches ressemblent soudainement à des mappages d'images au lieu de règles cachées. Les tâches de réflexion ressemblent en fait à des réflexions. Les tâches de symétrie ressemblent à de la symétrie. Les tâches de gravité ressemblent à des morceaux "tombant" droit vers le bas de la toile. ...

Meilleurs

Classement

Favoris