Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024: Dominando Domínios Diversos por Meio de Modelos de Mundos
(Sonhador V3)
Aplica o modelo mais recente do Dreamer a mais de 150 tarefas diversas, obtendo pontuações de última geração em muitas delas, mas, principalmente, aplica isso à mineração de diamantes no Minecraft, um desafio substancialmente mais difícil do que a maioria das tarefas da vida real.
A imprensa noticiou isso como "IA resolve Minecraft", o que é enganoso. Após 30 milhões (20 Hz) de passos no ambiente (17 dias seguidos), ele minerava um diamante. Diferente dos jogos da Atari, que são jogados com os mesmos pixels e controles que um humano usa, esta é uma interface modificada com o inventário e as estatísticas apresentados diretamente ao modelo, e um espaço de ação categórico – sem mouse para circular pelo inventário e telas de criação.
A mineração teve que ser modificada para quebrar instantaneamente, em vez do botão de mineração de vários segundos porque o Dreamer usa políticas de ação estocásticas, que são quase incapazes de segurar um botão por centenas de quadros seguidos. Da mesma forma, a ação de salto exigia vários quadros de seguração, então era instantânea.
Ainda assim, foi a primeira vez que um agente RL chegou tão longe sem usar aprendizado imitativo de jogadores humanos, e melhorias significativas foram feitas em todos os outros benchmarks também.
As melhorias foram em grande parte grinds de engenharia, em vez de arquiteturas completamente diferentes. Senti falta da seção "coisas que tentamos que não deram certo" da V2.
Com as mudanças, eles podem escalar o modelo de 12M para 400M de parâmetros, e a taxa de replay de 1 a 64 vezes a taxa ambiental.
A terminologia dos artigos agora está mais próxima de outros artigos do RL: "Continue predictor" em vez de "discount predictor" e uso de Pi para redes de políticas. Os diagramas foram aprimorados.
Com os modelos treinados conjuntamente, há uma tensão entre o modelo de representação querer degenerar para facilitar a previsão e ser útil para prever os estados seguintes. Um dos truques que eles usam é "free bits", que reduz as perdas quando está abaixo de certo nível para que não tentem avançar até zero, permitindo que a força oposta avance sem oposição.
Para as distribuições categóricas, eles usam suavização de rótulos de 1% nas distribuições categóricas para evitar picos na perda KL. Eles chamam isso de "unimix" para misturar uma distribuição uniforme sobre a distribuição existente. Isso é não padrão (em comparação com suavização de rótulos), mas talvez uma terminologia melhor.
Eles usam um valor categórico de dois hots em vez da regressão MSE para o crítico, mas, ao contrário da maioria das outras implementações, usam bins espaçados exponencialmente em vez de linearmente espaçados para cobrir várias ordens de grandeza. Eles definem funções symlog() / symexp() para permitir que as redes lidam com valores amplamente variados tanto em intervalos positivos quanto negativos. Segundo relatos, funciona melhor do que a transformação não linear semelhante usada em MuZero e Muesli.
Isso aparentemente exigia algum cuidado: "Para calcular a previsão esperada da distribuição softmax em bins que abrangem várias ordens de grandeza, a ordem de soma importa e bins positivos e negativos devem ser somados separadamente, de pequenos a grandes, e depois adicionados."
A camada final dos modelos de recompensa e crítico é inicializada a zero, em vez de inicializada aleatoriamente, para evitar valores potencialmente grandes e espúrios no início do treinamento.
O modelo alvo para a função valor agora é uma EMA em vez de uma cópia periódica.
Para obter a mesma quantidade de exploração a partir do gradiente de política, independentemente da escala das funções de valor, eles escalam os retornos (espaçados exponencialmente, então potencialmente muito grandes) para um intervalo limitado, considerando apenas a faixa de 5% a 95% vista como excluindo outliers.
...
Melhores
Classificação
Favoritos
