Pare de estar obcecado com as "propriedades emergentes" de 8B ou 70B. A maior parte do que você vê é apenas ruído de medição e trapaça de referência. Sempre disse que Zeyuan Allen-Zhu está fazendo a "Física" mais rigorosa dos LLMs. Como mencionei em meus blogs, a maioria dos debates acadêmicos sobre arquitetura é apenas um culto de carga porque falham no controle de variáveis. O novo tutorial de Zeyuan prova que um modelo de 100M pode revelar mais verdades arquitetônicas do que um modelo de 8B com 1T de tokens. Se você não está acompanhando isso, está apenas brincando com LEGOs caros no escuro. A indústria finalmente está acordando: Escalar sem entender a "Física" é apenas uma jogatina de homem rico.