(1/N)🚀Heute starten wir zwei eng miteinander verbundene Meilensteine in der Physik der LM-Serie: ein verfeinertes Teil 4.1 (v2.0) und ein brandneues Teil 4.2 — zusammen bilden sie ein klares, reproduzierbares, lehrbuchartiges Referenzwerk für principled Architekturforschung. Teil 4.1 führte einen synthetischen Pretraining-Spielplatz ein — unser Galileo-Experiment für LLMs🍎. Unsere v2.0 stärkt es mit Gated DeltaNet (GDN) und strengerer Ausrichtung, wodurch ein noch saubererer „Pisa-Turm“ zum Testen architektonischer Grenzen entsteht. Teil 4.2 zeigt, dass diese synthetischen Vorhersagen in der Realität widerhallen 🌍 — über 1–8B / 1T-Token-Pretraining — und bestätigt, welche Designprinzipien tatsächlich wichtig sind. Zusammen bringen die Teile 4.1 und 4.2 die synthetische und die reale Welt in überraschende Übereinstimmung 🤝— ein weiterer Schritt zu einem wissenschaftlicheren Verständnis von LLM-Architekturen. Wenn Sie neugierig sind auf: 🧠warum einige Modelle tieferes Denken haben ⚙️ warum lineare Modelle beim Abrufen Schwierigkeiten haben 🎶warum ein winziger horizontaler Mischer (Canon) alles verändert … verbindet diese Veröffentlichung alles miteinander. (Links am Ende)