Deja de obsesionarte con la basura de "propiedades emergentes" de 8B o 70B. La mayoría de lo que ves es solo ruido de medición y trampas en benchmarks. Siempre he dicho que Zeyuan Allen-Zhu está haciendo la "Física" más rigurosa de los LLMs. Como señalé en mis blogs, la mayoría de los debates académicos sobre arquitectura son simplemente un culto al cargo porque fallan en el control variable. El nuevo tutorial de Zeyuan demuestra que un modelo de 100M puede revelar más verdades arquitectónicas que un modelo 8B de 1T-token. Si no sigues esto, solo estás jugando con LEGOs caros en la oscuridad. La industria por fin está despertando: escalar sin entender la "Física" es solo una apuesta de ricos.