Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024 : Maîtriser des domaines divers grâce aux modèles du monde
(DreamerV3)
Applique le dernier modèle Dreamer à plus de 150 tâches diverses, obtenant des scores à la pointe de la technologie sur beaucoup d'entre elles, mais surtout, l'applique à l'extraction de diamants dans Minecraft, un défi substantiellement plus difficile que la plupart des tâches RL.
La presse a rapporté cela comme "l'IA résout Minecraft", ce qui est trompeur. Après 30 millions d'étapes d'environnement (20 hz) (17 jours non-stop), il a extrait un diamant. Contrairement aux jeux Atari, qui sont joués avec les mêmes pixels et contrôles qu'un humain utilise, il s'agit d'une interface modifiée avec l'inventaire et les statistiques présentées directement au modèle, et un espace d'action catégorique – pas de navigation dans l'inventaire et les écrans de fabrication.
L'extraction a dû être modifiée pour être instantanée au lieu de la normale pression de plusieurs secondes sur le bouton d'extraction, car Dreamer utilise des politiques d'action stochastiques, qui sont presque incapables de maintenir un bouton enfoncé pendant des centaines de frames d'affilée. De même, l'action de saut nécessitait plusieurs frames de maintien, donc elle a été rendue instantanée.
Néanmoins, c'était la première fois qu'un agent RL avait atteint ce niveau sans avoir utilisé l'apprentissage par imitation de joueurs humains, et des améliorations significatives ont également été réalisées sur tous les autres benchmarks.
Les améliorations étaient principalement des efforts d'ingénierie, plutôt que des architectures complètement différentes. J'ai manqué la section "choses que nous avons essayées qui n'ont pas fonctionné" de V2.
Avec les changements, ils peuvent faire évoluer le modèle de 12M à 400M de paramètres, et le ratio de replay de 1 à 64 fois le taux d'environnement.
La terminologie du papier est maintenant plus proche d'autres papiers RL : "Continue predictor" au lieu de "discount predictor" et utilisant Pi pour les réseaux de politiques. Les diagrammes sont améliorés.
Avec les modèles entraînés conjointement, il y a une tension entre le modèle de représentation qui veut dégénérer pour faciliter la prédiction et être utile pour prédire les états suivants. Un des trucs qu'ils utilisent est les "bits gratuits", en coupant les pertes lorsqu'elles sont en dessous d'un certain niveau afin qu'ils n'essaient pas de descendre jusqu'à zéro, permettant à la force opposée de progresser sans opposition.
Pour les distributions catégoriques, ils utilisent un lissage d'étiquettes de 1 % sur les distributions catégoriques pour éviter les pics dans la perte KL. Ils appellent cela "unimix" pour mélanger une distribution uniforme au-dessus de la distribution existante. Cela est non standard (par rapport au lissage d'étiquettes), mais peut-être une meilleure terminologie.
Ils utilisent une valeur catégorique à deux chauds au lieu de la régression MSE pour le critique, mais contrairement à la plupart des autres implémentations, utilisent des bacs espacés exponentiellement au lieu de linéairement afin de couvrir plusieurs ordres de grandeur. Ils définissent des fonctions symlog() / symexp() pour permettre aux réseaux de gérer des valeurs très variées dans les plages positives et négatives. Cela fonctionnerait mieux que la transformation non linéaire similaire utilisée dans MuZero et Muesli.
Cela a apparemment nécessité un certain soin : "Pour calculer la prédiction attendue de la distribution softmax sous des bacs qui couvrent de nombreux ordres de grandeur, l'ordre de sommation compte et les bacs positifs et négatifs doivent être additionnés séparément, des petits aux grands bacs, puis ajoutés."
La couche finale des modèles de récompense et de critique est initialisée à zéro au lieu d'être initialisée aléatoirement pour éviter des valeurs potentiellement grandes et spuriées au début de l'entraînement.
Le modèle cible pour la fonction de valeur est maintenant un EMA au lieu d'une copie périodique.
...
Meilleurs
Classement
Favoris
