Honestamente, é meio louco que eu tenha os pixels mais rápidos para a estrutura de treinamento de aprendizado por reforço de políticas em todo o mundo, com 100 mil triângulos e 16 mil malhas exclusivas e 16 mil mundos exclusivos. Tudo em um único 4090. 10 minutos em tarefas fáceis
Existem algumas coisas boas sobre isso. Consultas muito rápidas sobre atributos do mundo em relação às posições das coisas, atributos como qual é a superfície mais próxima. A memória não explode, pode escalar até 100 mil mundos únicos na memória, se eu quiser, reunindo ativos. Geração processual ao vivo
Ativos plug and play para o mundo. Posso gerar mundos mesh processualmente com o manifoldcad se quiser, e continuar gerando novos mundos durante o treinamento. Muitas políticas lutam para memorizar, mas não a minha. Cada episódio poderia ser um novo mundo, se eu quiser que seja
Esquemas de renderização personalizados para acelerar o treinamento. Eu posso fazer renderização foveada para que eu possa RL aprender um globo ocular real, que se move para descobrir onde o agente está posicionado. E realmente aprende. 1m, 2m passos por segundo. Com duas GPUs, posso executar 12 experimentos em uma hora
Posso obter percepção de profundidade gratuitamente por causa do meu motor mundial. Eu posso modelar a física que eu quero injetando uma função pytorch que agrupa as operações em todos os mundos. *Porque* eu posso executar tantos experimentos em velocidades tão extremas, e é tão configurável, estou aprendendo muito
Eu treinei um modelo para explorar um apartamento com apenas TRÊS consultas de profundidade. Foi fácil? Não. Foram necessários muitos experimentos. Mas como posso correr 100 por dia, faço 100 vezes mais progresso. Eu descobri como segurá-lo apenas direito * porque * meu progresso é 100x mais rápido que o seu
Eu tenho um código que pesquisa em todos os ângulos e tenho um código que renderiza o comportamento da política e tenho um código que executa as estatísticas em todos eles e atualiza ao vivo um gráfico para eu assistir e tenho um código que executa vários experimentos em minhas várias máquinas
Eu estive basicamente trabalhando nisso por 2 meses no total, perfurado pelo trabalho de hardware e firmware. Minhas corridas de treinamento costumavam levar 10 horas e agora levam 10 minutos. Eu não acho que você realmente entende o que isso significa. 10 minutos
Minha mãe costumava escrever c++ para software bancário transacional nos anos 90 e seus tempos de compilação eram mais longos. Todo o meu ciclo de treinamento em MUNDOS RENDERIZADOS gerados processualmente é mais rápido do que o tempo que minha mãe levou para executar testes de integração em software transacional de banco de dados
Eu reescrevi meu mecanismo de renderização e minha integração de treinador (extensão pufferlib específica para treinamento apenas de GPU, então todo o meu loop é executado nativamente na GPU) e meu software de visualização de experimentação / rollout e meu software de geração de mundo três vezes agora. Individualmente.
A velocidade simples do meu loop faz com que um monte de trabalho que nem valia a pena tentar valesse a pena hoje. Eu vou fazer tanta merda estúpida nunca feita antes Disseram-me que os pixels eram uma má ideia porque eram lentos, mas qualquer software pode ser rápido. Não é nem tão difícil.
Eu não acho que vocês entendem. Eu treinei uma política que usa NADA ALÉM DE PIXELS (!) QUE PODE GERENCIAR A FÍSICA com 4 canais de controle que LITERALMENTE LEMBRA quais salas já visitou e EVITAR COLISÕES a 20hz SEM ESTADO. 900k parâmetros
Me entende? Eu vou ganhar. Nem um pouco. Não fazendo o que todo mundo está fazendo. Fazendo o que ninguém mais tem coragem de fazer. Apenas fazendo o que é óbvio, aparentemente apenas para mim Eu vou ganhar
@ChrisRemboldt (Sim!)
20,61K