(1/N)🚀Hoy lanzamos dos hitos estrechamente conectados en la serie Física de LM: una Parte 4.1 (v2.0) afinada y una nueva Parte 4.2 — juntas forman una referencia clara, reproducible y al estilo de un libro de texto para la investigación de arquitectura con principios. La Parte 4.1 introdujo un campo de preentrenamiento sintético — nuestro experimento Galileo para LLMs🍎. Nuestra v2.0 lo fortalece con Gated DeltaNet (GDN) y una alineación más estricta, construyendo una “torre de Pisa” aún más limpia para probar los límites arquitectónicos. La Parte 4.2 muestra que estas predicciones sintéticas resuenan en la realidad 🌍 — a través de un preentrenamiento de 1–8B / 1T tokens — confirmando cuáles principios de diseño realmente importan. Juntas, las Partes 4.1 y 4.2 traen los mundos sintético y real a un sorprendente acuerdo 🤝— un paso más hacia una comprensión más científica de las arquitecturas de LLM. Si tienes curiosidad sobre: 🧠por qué algunos modelos razonan más profundamente ⚙️ por qué los modelos lineales luchan en la recuperación 🎶por qué un pequeño mezclador horizontal (Canon) lo cambia todo … esta publicación lo une todo.