Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024: Dominando dominios diversos a través de modelos mundiales
(Soñador V3)
Aplica el último modelo de Dreamer a más de 150 tareas diversas, obteniendo puntuaciones de última generación en muchas de ellas, pero sobre todo, lo aplica a la minería de diamantes en Minecraft, un desafío sustancialmente mayor que la mayoría de las tareas de la vida real.
La prensa informó de esto como "la IA resuelve Minecraft", lo cual es engañoso. Tras 30 millones (20 Hz) de pasos ambientales (17 días seguidos), extrajo un diamante. A diferencia de los juegos de Atari, que se juegan con los mismos píxeles y controles que usa un humano, esta es una interfaz modificada con el inventario y las estadísticas presentadas directamente al modelo, y un espacio de acción categórico: no hay que moverse con el ratón por el inventario y las pantallas de fabricación.
La minería tuvo que modificarse para romper instantáneamente en lugar de mantener pulsado el botón de minería durante varios segundos porque Dreamer utiliza políticas de acción estocásticas, que son casi incapaces de mantener pulsado un botón durante cientos de fotogramas seguidos. De manera similar, la acción de salto requería varios frames de mantenimiento, así que se hizo instantánea.
Aun así, era la primera vez que un agente de RL llegaba tan lejos sin haber usado el aprendizaje imitado de jugadores humanos, y también se hicieron mejoras significativas en todos los demás benchmarks.
Las mejoras fueron en gran parte grinds de ingeniería, más que arquitecturas completamente diferentes. Me perdí la sección de "cosas que probamos y que no funcionaron" de la V2.
Con los cambios, pueden escalar el modelo de 12M a 400M de forma rentable, y la relación de repetición de 1 a 64 veces la tasa ambiental.
La terminología del artículo ahora se acerca más a la de otros artículos de RL: "Continuar predictor" en lugar de "predictor de descuento" y usar Pi para redes de políticas. Los diagramas están mejorados.
Con los modelos entrenados conjuntamente, existe una tensión entre que el modelo de representación quiera degenerar para facilitar la predicción y ser útil para predecir estados posteriores. Uno de los trucos que usan es el "bits libres", que consiste en recortar las pérdidas cuando están por debajo de cierto nivel para no intentar llegar a cero, permitiendo que la fuerza contraria avance sin oposición.
Para las distribuciones categóricas se utiliza suavizado de etiquetas al 1% en las distribuciones categóricas para evitar picos en la pérdida de KL. A esto lo llaman "unimix" para mezclar una distribución uniforme sobre la distribución existente. Esto no es estándar (a diferencia del suavizado de etiquetas), pero posiblemente es una terminología mejor.
Utilizan un valor categórico de dos hots en lugar de regresión MSE para el crítico, pero a diferencia de la mayoría de las otras implementaciones, usan contenedores espaciados exponencialmente en lugar de linealmente para cubrir varios órdenes de magnitud. Definen las funciones symlog() / symexp() para permitir que las redes manejen valores muy variables tanto en rangos positivos como negativos. Según se informa, funciona mejor que la transformación no lineal similar utilizada en MuZero y Muesli.
Esto aparentemente requería cierto cuidado: "Para calcular la predicción esperada de la distribución softmax en contenedores que abarcan muchos órdenes de magnitud, importa el orden de suma y los contenedores positivos y negativos deben sumarse por separado, de contenedores pequeños a grandes, y luego añadirse."
La capa final de los modelos de recompensa y crítico se inicializa en cero en lugar de inicializarse aleatoriamente para evitar valores potencialmente grandes y espurios al inicio del entrenamiento.
El modelo objetivo para la función de valor es ahora una EMA en lugar de una copia periódica.
Para obtener la misma cantidad de exploración de su gradiente de política independientemente de la escala de las funciones de valor, escalan los rendimientos (espaciados exponencialmente, es decir, potencialmente muy grandes) a un rango acotado, considerando solo el rango del 5% al 95% que excluye los valores atípicos.
...
Populares
Ranking
Favoritas
