Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Diretor de Robótica da NVIDIA & Cientista Distinto. Colíder do laboratório GEAR. Resolução de IAG Física, um motor de cada vez. Stanford Ph.D. 1º estagiário da OpenAI.
Estou a observar um mini paradoxo de Moravec na robótica: as acrobacias que são difíceis para os humanos são muito mais fáceis para os robôs do que tarefas "não sexy" como cozinhar, limpar e montar. Isso leva a uma dissonância cognitiva para as pessoas fora do campo, "então, os robôs podem fazer parkour e breakdance, mas por que não conseguem cuidar do meu cão?" Acredite, meus pais me perguntaram isso mais do que você imagina ...
O "paradoxo de Moravec dos robôs" também cria a ilusão de que as capacidades físicas da IA estão muito mais avançadas do que realmente estão. Não estou a destacar a Unitree, pois isso se aplica amplamente a todas as recentes demonstrações acrobáticas na indústria. Aqui está um teste simples: se você colocar uma parede na frente do robô que faz flips laterais, ele vai colidir com ela em plena força e fazer um espetáculo. Porque ele está apenas a sobreajustar aquele único movimento de referência, sem qualquer consciência do ambiente.
Aqui está o motivo pelo qual o paradoxo existe: é muito mais fácil treinar um "gimnasta cego" do que um robô que vê e manipula. O primeiro pode ser resolvido inteiramente em simulação e transferido zero-shot para o mundo real, enquanto o último exige renderização extremamente realista, física de contato e dinâmicas de objetos do mundo real desordenadas - nada disso pode ser simulado bem.
Imagine que você pode treinar LLMs não a partir da internet, mas a partir de um jogo de console de texto puramente elaborado à mão. Os robóticos tiveram sorte. Acontece que vivemos num mundo onde motores de física acelerados são tão bons que conseguimos realizar acrobacias impressionantes usando literalmente zero dados reais. Mas ainda não descobrimos o mesmo código de trapaça para a destreza geral.
Até lá, ainda seremos questionados pelos nossos pais confusos.
318,96K
A minha barra para a AGI é muito mais simples: uma IA a cozinhar um bom jantar na casa de alguém para qualquer cozinha. O Teste de Turing Físico é muito provavelmente mais difícil do que o Prémio Nobel. O paradoxo de Moravec continuará a assombrar-nos, pairando maior e mais escuro, na próxima década.

Thomas Wolf19/07, 16:06
A minha referência para AGI é uma IA a ganhar um Prémio Nobel por uma nova teoria que ela originou.
99,02K
Estive um pouco calado no X recentemente. O ano passado foi uma experiência transformadora. Grok-4 e Kimi K2 são incríveis, mas o mundo da robótica é um maravilhoso faroeste. Sinto que é como o NLP em 2018, quando o GPT-1 foi publicado, juntamente com o BERT e mil outras flores que floresceram. Ninguém sabia qual delas acabaria por se tornar o ChatGPT. Os debates eram acalorados. A entropia estava nas alturas. As ideias eram incrivelmente divertidas.
Acredito que o GPT-1 da robótica já está em algum lugar no Arxiv, mas não sabemos exatamente qual. Podem ser modelos de mundo, RL, aprendizado a partir de vídeos humanos, sim2real, real2sim, etc. etc, ou qualquer combinação deles. Os debates são acalorados. A entropia está nas alturas. As ideias são incrivelmente divertidas, em vez de espremermos os últimos poucos % no AIME & GPQA.
A natureza da robótica também complica muito o espaço de design. Ao contrário do mundo limpo de bits para LLMs (strings de texto), nós, robóticos, temos que lidar com o mundo bagunçado de átomos. Afinal, há um pedaço de metal definido por software no loop. Os normies de LLM podem achar difícil de acreditar, mas até agora os robóticos ainda não conseguem concordar em um benchmark! Diferentes robôs têm diferentes envelopes de capacidade - alguns são melhores em acrobacias enquanto outros em manipulação de objetos. Alguns são destinados ao uso industrial enquanto outros são para tarefas domésticas. A transposição de corpo não é apenas uma novidade de pesquisa, mas uma característica essencial para um cérebro robótico universal.
Conversei com dezenas de líderes de C-suite de várias empresas de robôs, antigas e novas. Alguns vendem o corpo inteiro. Alguns vendem partes do corpo, como mãos ágeis. Muitos outros vendem as pás para fabricar novos corpos, criar simulações ou coletar enormes quantidades de dados. O espaço de ideias de negócios é tão selvagem quanto a pesquisa em si. É uma nova corrida do ouro, como não víamos desde a onda do ChatGPT em 2022.
O melhor momento para entrar é quando os picos de não-consenso. Ainda estamos no início de uma curva de perda - há fortes sinais de vida, mas muito, muito longe da convergência. Cada passo de gradiente nos leva ao desconhecido. Mas uma coisa eu sei com certeza - não há AGI sem tocar, sentir e estar incorporado no mundo bagunçado.
Num tom mais pessoal - dirigir um laboratório de pesquisa vem com um novo nível de responsabilidade. Dar atualizações diretamente ao CEO de uma empresa de $4T é, para dizer o mínimo, tanto emocionante quanto consumindo toda a minha atenção. Acabaram-se os dias em que eu podia me manter atualizado e mergulhar profundamente em todas as notícias de IA.
Vou tentar encontrar tempo para compartilhar mais da minha jornada.

876,93K
O Teste de Turing Físico: sua casa está uma bagunça completa depois de um hackathon de domingo. Na segunda-feira à noite, você chega em casa para uma sala de estar imaculada e um jantar à luz de velas. E não dava para saber se um ser humano ou uma máquina estava lá. Enganosamente simples, insanamente difícil.
É a próxima Estrela Polar da IA. O sonho que me mantém acordado 12 da manhã no laboratório. A visão para a próxima plataforma de computação que automatiza pedaços de átomos em vez de pedaços de bits.
Obrigado Sequoia por me hospedar na AI Ascent! Abaixo está minha palestra completa sobre os primeiros princípios para resolver a robótica de uso geral: como pensamos sobre a estratégia de dados e as leis de escala. Garanto-lhe que serão 17 minutos de que não se arrepende!
107,2K
Um dia, na próxima década, teremos robôs em todas as casas, hospitais e fábricas, fazendo todos os trabalhos maçantes e perigosos com destreza sobre-humana. Esse dia será conhecido como "quinta-feira". Nem mesmo Turing ousaria sonhar nossa vida em seus sonhos mais loucos.

signüll21/04/2025
Nós cruzamos o teste de Turing e ninguém deu uma merda. sem desfiles. sem manchetes de primeira página. apenas... um encolher de ombros casual. Como "Ah, sim, as máquinas são inteligentes o suficiente para nos enganar agora. enfim, o que é para almoçar?"
Esse silêncio diz tudo sobre o ritmo em que estamos nos movendo.
De volta às minhas aulas de CS, o Teste de Turing era tratado como o chefe final. Agora, cada rutura é outra terça-feira maldita.
101,94K
as olimpíadas humanoides em 2030 serão um verdadeiro espetáculo

Jim Fan5/02/2025
Nós RL'amos robôs humanoides para Cristiano Ronaldo, LeBron James e Kobe Bryant! Estas são redes neurais rodando em hardware real no nosso laboratório GEAR. A maioria das demonstrações de robôs que você vê online acelera os vídeos. Nós realmente *os desaceleramos* para que você possa apreciar os movimentos fluidos.
Estou animado para anunciar "ASAP", um modelo "real2sim2real" que domina movimentos extremamente suaves e dinâmicos para controle corporal total de humanoides.
Nós pré-treinamos o robô em simulação primeiro, mas há uma notória lacuna "sim2real": é muito difícil para equações físicas projetadas à mão corresponderem à dinâmica do mundo real.
Nossa solução é simples: basta implantar uma política pré-treinada em hardware real, coletar dados e reproduzir o movimento na simulação. A reprodução terá, obviamente, muitos erros, mas isso fornece um sinal rico para compensar a discrepância física. Use outra rede neural para aprender o delta. Basicamente, nós "consertamos" um motor físico tradicional, para que o robô possa experimentar quase o mundo real em escala nas GPUs.
O futuro é simulação híbrida: combine o poder de motores de simulação clássicos refinados ao longo de décadas e a habilidade extraordinária das redes neurais modernas de capturar um mundo bagunçado.
45,82K
Nós RL'amos robôs humanoides para Cristiano Ronaldo, LeBron James e Kobe Bryant! Estas são redes neurais rodando em hardware real no nosso laboratório GEAR. A maioria das demonstrações de robôs que você vê online acelera os vídeos. Nós realmente *os desaceleramos* para que você possa apreciar os movimentos fluidos.
Estou animado para anunciar "ASAP", um modelo "real2sim2real" que domina movimentos extremamente suaves e dinâmicos para controle corporal total de humanoides.
Nós pré-treinamos o robô em simulação primeiro, mas há uma notória lacuna "sim2real": é muito difícil para equações físicas projetadas à mão corresponderem à dinâmica do mundo real.
Nossa solução é simples: basta implantar uma política pré-treinada em hardware real, coletar dados e reproduzir o movimento na simulação. A reprodução terá, obviamente, muitos erros, mas isso fornece um sinal rico para compensar a discrepância física. Use outra rede neural para aprender o delta. Basicamente, nós "consertamos" um motor físico tradicional, para que o robô possa experimentar quase o mundo real em escala nas GPUs.
O futuro é simulação híbrida: combine o poder de motores de simulação clássicos refinados ao longo de décadas e a habilidade extraordinária das redes neurais modernas de capturar um mundo bagunçado.
543,12K
Que um *segundo* artigo tenha sido lançado com toneladas de segredos do flywheel de RL e raciocínio *multimodal* no estilo o1 não estava no meu bingo hoje. Os artigos da Kimi (outra startup) e da DeepSeek convergiram notavelmente em descobertas semelhantes:
> Não há necessidade de busca em árvore complexa como MCTS. Basta linearizar o traço de pensamento e fazer uma boa previsão autoregressiva;
> Não há necessidade de funções de valor que exijam outra cópia cara do modelo;
> Não há necessidade de modelagem de recompensa densa. Confiar o máximo possível na verdade de base, no resultado final.
Diferenças:
> A DeepSeek adota a abordagem AlphaZero - bootstrap puro através de RL sem input humano, ou seja, "cold start". A Kimi adota a abordagem AlphaGo-Master: SFT leve para aquecer através de traços de CoT projetados por prompt.
> Os pesos da DeepSeek são licenciados pelo MIT (liderança de pensamento!); a Kimi ainda não tem um lançamento de modelo.
> A Kimi mostra um desempenho multimodal forte (!) em benchmarks como MathVista, que requer compreensão visual de geometria, testes de QI, etc.
> O artigo da Kimi tem MUITO mais detalhes sobre o design do sistema: infraestrutura de RL, cluster híbrido, sandbox de código, estratégias de paralelismo; e detalhes de aprendizado: contexto longo, compressão de CoT, currículo, estratégia de amostragem, geração de casos de teste, etc.
Leituras otimistas em um feriado!

300,43K
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável