(1/N)🚀Dziś uruchamiamy dwa ściśle powiązane kamienie milowe w serii Fizyk LM: udoskonaloną Część 4.1 (v2.0) oraz zupełnie nową Część 4.2 — razem tworzącą jasne, powtarzalne, podręcznikowe odniesienie do badań nad architekturą opartą na zasadach. Część 4.1 wprowadziła syntetyczny plac zabaw do wstępnego szkolenia — nasz eksperyment Galileo dla LLM🍎. Nasza v2.0 wzmacnia go za pomocą Gated DeltaNet (GDN) i surowszej zgodności, budując jeszcze czystszy „wieżę w Pizie” do testowania granic architektonicznych. Część 4.2 pokazuje, że te syntetyczne prognozy rezonują w rzeczywistości 🌍 — w zakresie 1–8B / 1T-token wstępnego szkolenia — potwierdzając, które zasady projektowe naprawdę mają znaczenie. Razem, Części 4.1 i 4.2 wprowadzają syntetyczny i rzeczywisty świat w zaskakującą zgodność 🤝— jeszcze jeden krok w kierunku bardziej naukowego zrozumienia architektur LLM. Jeśli jesteś ciekawy: 🧠dlaczego niektóre modele myślą głębiej ⚙️ dlaczego modele liniowe mają trudności z wyszukiwaniem 🎶dlaczego mały poziomy mikser (Canon) zmienia wszystko … to wydanie łączy to wszystko razem. (Linki na końcu)