(1/N)🚀Aujourd'hui, nous lançons deux jalons étroitement liés dans la série Physics of LM : une version améliorée de la Partie 4.1 (v2.0) et une toute nouvelle Partie 4.2 — formant ensemble une référence claire, reproductible, de style manuel pour la recherche en architecture principielle. La Partie 4.1 a introduit un terrain de jeu de préentraînement synthétique — notre expérience Galileo pour les LLMs🍎. Notre v2.0 le renforce avec Gated DeltaNet (GDN) et un alignement plus strict, construisant une "tour de Pise" encore plus propre pour tester les limites architecturales. La Partie 4.2 montre que ces prédictions synthétiques résonnent dans la réalité 🌍 — à travers un préentraînement de 1 à 8B / 1T-token — confirmant quels principes de conception comptent réellement. Ensemble, les Parties 4.1 et 4.2 rapprochent les mondes synthétique et réel dans un accord surprenant 🤝— un pas de plus vers une compréhension plus scientifique des architectures LLM. Si vous êtes curieux de savoir : 🧠 pourquoi certains modèles raisonnent plus profondément ⚙️ pourquoi les modèles linéaires ont du mal à récupérer 🎶 pourquoi un petit mélangeur horizontal (Canon) change tout … cette publication relie tout ensemble. (Liens à la fin)