Перестаньте зациклюватися на сміттєвих речах 8B або 70B «emergent properties». Більшість того, що ви бачите, — це просто шум вимірювання та шахрайство з бенчмарками. Я завжди казав, що Zeyuan Allen-Zhu займається найсуворішою «фізикою» серед LLM. Як я зазначав у своїх блогах, більшість академічних дебатів про архітектуру — це просто «вантажне культивування», бо вони не справляються з контролем змінних. Новий туторіал Zeyuan доводить, що модель 100M може розкрити більше архітектурних істин, ніж модель з 1T-token 8B. Якщо ви не слідкуєте за цим, ви просто граєтеся дорогими LEGO в темряві. Індустрія нарешті прокидається: масштабування без розуміння «фізики» — це просто азартна гра багатії.