(1/N) 🚀Сьогодні ми запускаємо два тісно пов'язані етапи серії «Фізика LM»: уточнену Частину 4.1 (v2.0) і абсолютно нову Частину 4.2 — разом утворюючи чіткий, відтворюваний, підручниковий довідник для досліджень принципової архітектури. Частина 4.1 представила синтетичний попередній тренувальний майданчик — наш експеримент Galileo для LLM🍎. Наша версія 2.0 посилює його за допомогою закритої DeltaNet (GDN) та суворішого вирівнювання, побудувавши ще чистішу «вежу Пізи» для перевірки архітектурних обмежень. Частина 4.2 показує, що ці синтетичні прогнози резонують у реальності 🌍 — через 1–8B / 1T-токен попереднього навчання — підтверджуючи, які принципи дизайну насправді мають значення. Разом Частини 4.1 і 4.2 несподівано поєднують синтетичний і реальний світи 🤝 — ще один крок до більш наукового розуміння архітектур LLM. Якщо вам цікаво: 🧠чому деякі моделі міркують глибше ⚙️ Чому лінійні моделі мають труднощі при пошуку 🎶чому маленький горизонтальний мікшер (канон) змінює все ... Цей реліз об'єднує все докупи. (Посилання наприкінці)