*Lanzamiento importante* de IA de código abierto hoy. ¿Puede Estados Unidos ganar la carrera Open AI? Mi conversación con @natolambert y @soldni de @allen_ai sobre el lanzamiento de Olmo 3 00:00 – Apertura en frío 00:39 – Bienvenidos y gran anuncio de hoy 01:18 – Presentamos la familia de modelos Olmo 3 02:07 – Qué son realmente los "modelos base" (y por qué importan) 05:51 – Dolma 3: los datos detrás de Olmo 3 08:06 – Actuación contra Qwen, Gemma, DeepSeek 10:28 – Qué significa el verdadero código abierto (y por qué es raro) 12:51 – Puntos de control intermedios, transparencia y por qué AI2 publica todo 16:37 – Por qué Qwen está en todas partes (incluidas las startups estadounidenses) 18:31 – Por qué los laboratorios chinos se vuelven open source (y por qué los laboratorios estadounidenses no) 20:28 – Dentro de ATOM: la respuesta de EE.UU. al aumento del modelo de China 22:13 – El auge de los "modelos pensantes" y la escala de inferencia-tiempo 35:58 – El pipeline completo de Olmo, explicado de forma sencilla 46:52 – Pre-entrenamiento: datos, escala y evitar picos catastróficos 50:27 – Entrenamiento en mitad de entrenamiento (parcheado de cola) y evitando fugas en las pruebas 52:06 – Por qué importa la formación de contexto largo 55:28 – SFT: construyendo la base para el razonamiento 1:04:53 – Afinación de preferencias y por qué el DPO sigue funcionando 1:10:51 – La parte difícil: RLVR, largas cadenas de razonamiento y problemas de infraestructura 1:13:59 – Por qué el RL es tan técnicamente brutal 1:18:17 – Impuesto a la complejidad vs bombo de la AGI 1:21:58 – Cómo todos pueden contribuir al futuro de la IA 1:27:26 – Reflexiones finales
... raza de IA de código abierto, d'oh 🤦 ♂️
33.56K