Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024: Dominando Domínios Diversos através de Modelos Mundiais
(DreamerV3)
Aplica o mais recente modelo Dreamer a mais de 150 tarefas diversas, obtendo pontuações de ponta em muitas delas, mas, mais notavelmente, aplica-o à mineração de diamantes no Minecraft, um desafio substancialmente mais difícil do que a maioria das tarefas de RL.
A imprensa reportou isso como “IA resolve Minecraft”, o que é enganoso. Após 30 milhões de passos no ambiente (20 hz) (17 dias sem parar), minerou um diamante. Ao contrário dos jogos da Atari, que são jogados com os mesmos pixels e controles que um humano usa, esta é uma interface modificada com o inventário e as estatísticas apresentadas diretamente ao modelo, e um espaço de ação categórico – sem navegar pelo inventário e telas de criação.
A mineração teve que ser modificada para quebrar instantaneamente em vez de manter o botão de mineração por vários segundos, porque o Dreamer usa políticas de ação estocásticas, que são quase incapazes de manter um botão pressionado por centenas de quadros seguidos. Da mesma forma, a ação de pular exigia múltiplos quadros de pressão, então foi feita instantânea.
Ainda assim, foi a primeira vez que um agente de RL chegou tão longe sem ter usado aprendizado por imitação de jogadores humanos, e melhorias significativas foram feitas em todos os outros benchmarks também.
As melhorias foram em grande parte esforços de engenharia, em vez de arquiteturas completamente diferentes. Eu senti falta da seção “coisas que tentamos que não funcionaram” da V2.
Com as mudanças, eles podem escalar o modelo de forma lucrativa de 12M para 400M de parâmetros, e a taxa de replay de 1 para 64 vezes a taxa do ambiente.
A terminologia do artigo agora está mais próxima de outros artigos de RL: “Preditor de continuação” em vez de “preditor de desconto” e usando Pi para redes de políticas. Os diagramas foram melhorados.
Com os modelos treinados em conjunto, há uma tensão entre o modelo de representação querendo degenerar para facilitar a previsão e ser útil para prever estados seguintes. Um dos truques que eles usam é “bits livres”, cortando as perdas quando abaixo de um certo nível para que não tentem ir até zero, permitindo que a força oposta avance sem oposição.
Para as distribuições categóricas, eles usam 1% de suavização de rótulo nas distribuições categóricas para evitar picos na perda KL. Eles chamam isso de “unimix” para misturar uma distribuição uniforme em cima da distribuição existente. Isso é não padrão (em comparação com a suavização de rótulo), mas, discutivelmente, uma melhor terminologia.
Eles usam um valor categórico de dois quentes em vez de regressão MSE para o crítico, mas, ao contrário da maioria das outras implementações, usam bins espaçados exponencialmente em vez de linearmente, para que possam cobrir várias ordens de magnitude. Eles definem funções symlog() / symexp() para permitir que as redes lidem com valores amplamente variados em ambas as faixas positiva e negativa. Supostamente funciona melhor do que a transformação não linear semelhante usada no MuZero e Muesli.
Isso aparentemente exigiu algum cuidado: “Para calcular a previsão esperada da distribuição softmax sob bins que abrangem muitas ordens de magnitude, a ordem da soma importa e os bins positivos e negativos devem ser somados separadamente, de bins pequenos para grandes, e então adicionados.”
A camada final dos modelos de recompensa e crítico é inicializada em zero em vez de inicializada aleatoriamente para evitar valores espúrios potencialmente grandes no início do treinamento.
O modelo alvo para a função de valor agora é um EMA em vez de uma cópia periódica.
...
Top
Classificação
Favoritos
