Přestaňte být posedlí nesmysly o "vznikajících vlastnostech" z 8B nebo 70B. Většina toho, co vidíte, je jen šum měření a podvádění benchmarků. Vždycky jsem říkal, že Zeyuan Allen-Zhu dělá nejpřísnější "fyziku" z LLM. Jak jsem poznamenal ve svých blozích, většina akademických debat o architektuře je jen kultování nákladu, protože selhávají v řízení proměnných. Zeyuanův nový tutoriál dokazuje, že model 100M může odhalit více architektonických pravd než model 8B s tokenem 1T. Pokud to nesledujete, jen si hrajete s drahými LEGO kostkami ve tmě. Průmysl se konečně probouzí: Škálovat bez pochopení "fyziky" je jen hazard bohatého muže.