*Importante* lanzamiento de código abierto de IA hoy. ¿Puede América ganar la carrera de Open AI? Mi conversación con @natolambert y @soldni de @allen_ai sobre el lanzamiento de Olmo 3 00:00 – Apertura Fría 00:39 – Bienvenida y el gran anuncio de hoy 01:18 – Presentación de la familia de modelos Olmo 3 02:07 – Lo que realmente son los "modelos base" (y por qué son importantes) 05:51 – Dolma 3: los datos detrás de Olmo 3 08:06 – Rendimiento vs Qwen, Gemma, DeepSeek 10:28 – Lo que realmente significa código abierto (y por qué es raro) 12:51 – Puntos de control intermedios, transparencia y por qué AI2 publica todo 16:37 – Por qué Qwen está en todas partes (incluidas las startups de EE. UU.) 18:31 – Por qué los laboratorios chinos se vuelven de código abierto (y por qué los laboratorios de EE. UU. no) 20:28 – Dentro de ATOM: la respuesta de EE. UU. al aumento de modelos de China 22:13 – El auge de los "modelos pensantes" y la escalabilidad en el tiempo de inferencia 35:58 – La tubería completa de Olmo, explicada de manera simple 46:52 – Pre-entrenamiento: datos, escala y evitando picos catastróficos 50:27 – Entrenamiento intermedio (parcheo de cola) y evitando filtraciones de pruebas 52:06 – Por qué el entrenamiento de contexto largo es importante 55:28 – SFT: construyendo la base para el razonamiento 1:04:53 – Ajuste de preferencias y por qué DPO sigue funcionando 1:10:51 – La parte difícil: RLVR, cadenas de razonamiento largas y el dolor de infraestructura 1:13:59 – Por qué RL es tan técnicamente brutal 1:18:17 – Impuesto de complejidad vs hype de AGI 1:21:58 – Cómo todos pueden contribuir al futuro de la IA 1:27:26 – Reflexiones finales
... carrera de IA **de código abierto**, d'oh 🤦‍♂️
33,61K