Slutt å være besatt av 8B eller 70B «emergente egenskaper»-søppel. Det meste du ser er bare målestøy og benchmark-juks. Jeg har alltid sagt at Zeyuan Allen-Zhu gjør den mest grundige «fysikken» av LLM-ene. Som jeg påpekte i bloggene mine, er de fleste akademiske debatter om arkitektur bare lastekultering fordi de feiler i variabelkontroll. Zeyuans nye veiledning beviser at en 100M-modell kan avsløre flere arkitektoniske sannheter enn en 1T-token 8B-modell. Hvis du ikke følger med på dette, leker du bare med dyre LEGO-klosser i mørket. Bransjen våkner endelig opp: Å skalere uten å forstå «fysikken» er bare en rik manns gambling.