*Grande* saída de IA open source hoje. Os Estados Unidos podem vencer a corrida Open AI? Minha conversa com @natolambert e @soldni de @allen_ai sobre o lançamento do Olmo 3 00:00 – Abertura Fria 00:39 – Bem-vindos e grande anúncio de hoje 01:18 – Apresentando a família de modelos Olmo 3 02:07 – O que realmente são os "modelos base" (e por que eles importam) 05:51 – Dolma 3: os dados por trás de Olmo 3 08:06 – Performance vs Qwen, Gemma, DeepSeek 10:28 – O que significa verdadeiro código aberto (e por que é raro) 12:51 – Checkpoints intermediários, transparência e por que o AI2 publica tudo 16:37 – Por que a Qwen está em toda parte (incluindo startups dos EUA) 18:31 – Por que os laboratórios chineses se tornam open source (e por que os laboratórios dos EUA não) 20:28 – Dentro do ATOM: a resposta dos EUA ao aumento do modelo da China 22:13 – O surgimento dos "modelos de pensamento" e da escala de inferência-tempo 35:58 – O oleoduto completo da Olmo, explicado de forma simples 46:52 – Pré-treinamento: dados, escala e evitar picos catastróficos 50:27 – No meio do treinamento (conserto de cauda) e evitar vazamento de teste 52:06 – Por que o treinamento de contexto longo importa 55:28 – SFT: construindo a base para o raciocínio 1:04:53 – Afinação de preferências e por que o DPO ainda funciona 1:10:51 – A parte difícil: RLVR, longas cadeias de raciocínio e dor de infraestrutura 1:13:59 – Por que o RL é tão tecnicamente brutal 1:18:17 – Imposto de complexidade vs hype da AGI 1:21:58 – Como todos podem contribuir para o futuro da IA 1:27:26 – Considerações finais
... raça de IA aberta **código**, d'oh 🤦 ♂️
33,59K