A AMI Labs acabou de arrecadar $1,03B. A World Labs arrecadou $1B algumas semanas antes. Ambas estão apostando em modelos de mundo. Mas quase ninguém entende o mesmo significado por esse termo. Aqui estão, na minha opinião, cinco categorias de modelos de mundo. --- 1. Arquitetura Preditiva de Embedding Conjunto (JEPA) Representantes: AMI Labs (@ylecun), V-JEPA 2 A aposta central aqui é que a reconstrução de pixels sozinha é um objetivo ineficiente para aprender as abstrações necessárias para a compreensão física. LeCun tem dito isso há anos — prever cada pixel do futuro é intratável em qualquer ambiente estocástico. O JEPA contorna isso prevendo em um espaço latente aprendido. Concretamente, o JEPA treina um codificador que mapeia trechos de vídeo para representações, e então um preditor que prevê regiões mascaradas nesse espaço de representação — não no espaço de pixels. Essa é uma escolha de design crucial. Um modelo generativo que reconstrói pixels é forçado a se comprometer com detalhes de baixo nível (textura exata, iluminação, posição da folha) que são inerentemente imprevisíveis. Ao operar em embeddings abstratos, o JEPA pode capturar "a bola vai cair da mesa" sem ter que alucinar cada quadro dela caindo. O V-JEPA 2 é o ponto de prova em larga escala mais claro até agora. É um modelo de 1,2B de parâmetros pré-treinado em mais de 1M horas de vídeo através de previsão mascarada auto-supervisionada — sem rótulos, sem texto. A segunda fase de treinamento é onde as coisas ficam interessantes: apenas 62 horas de dados de robô do conjunto de dados DROID são suficientes para produzir um modelo de mundo condicionado à ação que suporta planejamento zero-shot. O robô gera sequências de ações candidatas, as avança através do modelo de mundo e escolhe aquela cujo resultado previsto melhor corresponde a uma imagem de objetivo. Isso funciona em objetos e ambientes nunca vistos durante o treinamento. A eficiência de dados é a verdadeira manchete técnica. 62 horas é quase nada. Isso sugere que o pré-treinamento auto-supervisionado em vídeo diversificado pode fornecer conhecimento físico prévio suficiente para que muito poucos dados específicos de domínio sejam necessários a montante. Esse é um forte argumento para o design do JEPA — se suas representações forem boas o suficiente, você não precisa forçar cada tarefa do zero. A AMI Labs é o esforço de LeCun para levar isso além da pesquisa. Eles estão focando primeiro em saúde e robótica, o que faz sentido dado a força do JEPA em raciocínio físico com dados limitados. Mas essa é uma aposta de longo prazo — seu CEO disse abertamente que produtos comerciais podem estar a anos de distância. --- 2. Inteligência Espacial (Modelos de Mundo 3D) Representante: World Labs (@drfeifei) ...