DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Modèle de Raisonnement Universel Les Transformateurs Universels surpassent les Transformateurs standards sur les tâches de raisonnement. Mais pourquoi ? Des travaux antérieurs ont attribué les gains à des innovations architecturales élaborées comme des conceptions hiérarchiques et des mécanismes de verrouillage complexes. Mais ces chercheurs ont trouvé une explication plus simple. Cette nouvelle recherche démontre que les gains de performance sur ARC-AGI proviennent principalement de deux facteurs souvent négligés : le biais inductif récurrent et une forte non-linéarité. Appliquer une seule transformation de manière répétée fonctionne beaucoup mieux que d'empiler des couches distinctes pour les tâches de raisonnement. Avec seulement 4x de paramètres, un Transformateur Universel atteint 40 % de pass@1 sur ARC-AGI 1. Les Transformateurs vanille avec 32x de paramètres ne marquent que 23,75 %. Simplement augmenter la profondeur ou la largeur des Transformateurs standards entraîne des rendements décroissants et peut même dégrader la performance. Ils introduisent le Modèle de Raisonnement Universel (URM), qui améliore cela avec deux techniques. Tout d'abord, ConvSwiGLU ajoute une convolution courte en profondeur après l'expansion MLP, injectant un mélange local de tokens dans le chemin non linéaire. Deuxièmement, la Rétropropagation Truncée à Travers les Boucles saute le calcul du gradient pour les premières itérations récurrentes, stabilisant l'optimisation. Résultats : 53,8 % de pass@1 sur ARC-AGI 1, en hausse par rapport à 40 % (TRM) et 34,4 % (HRM). Sur ARC-AGI 2, l'URM atteint 16 % de pass@1, triplant presque le HRM et doublant plus que le TRM. La précision de Sudoku atteint 77,6 %. Ablations : - Supprimer la convolution courte fait chuter le pass@1 de 53,8 % à 45,3 %. Supprimer la rétropropagation truncée le fait tomber à 40 %. - Remplacer SwiGLU par des activations plus simples comme ReLU fait chuter la performance à 28,6 %. - Supprimer complètement le softmax d'attention fait s'effondrer la précision à 2 %. La structure récurrente convertit le calcul en profondeur effective. Les Transformateurs standards dépensent des FLOPs sur un raffinement redondant dans les couches supérieures. Le calcul récurrent concentre le même budget sur le raisonnement itératif. Le raisonnement complexe bénéficie davantage du calcul itératif que de l'échelle. Les petits modèles avec une structure récurrente surpassent les grands modèles statiques sur des tâches nécessitant une abstraction en plusieurs étapes.

Meilleurs

Classement

Favoris