Sluta vara besatt av 8B eller 70B "emergent properties"-skräp. Det mesta du ser är bara mätbrus och benchmarkfusk. Jag har alltid sagt att Zeyuan Allen-Zhu gör den mest rigorösa "fysiken" av LLM:er. Som jag nämnde i mina bloggar är de flesta akademiska debatter om arkitektur bara lastkultering eftersom de misslyckas med variabelkontroll. Zeyuans nya handledning bevisar att en 100M-modell kan avslöja fler arkitektoniska sanningar än en 1T-token 8B-modell. Om du inte följer detta leker du bara med dyra LEGO i mörkret. Branschen håller äntligen på att vakna: Att skala utan att förstå "fysiken" är bara en rik mans spel.