Pare de ser obcecado por lixo de "propriedades emergentes" de 8B ou 70B. A maior parte do que você vê é apenas ruído de medição e trapaça de benchmarks. Sempre disse que Zeyuan Allen-Zhu está fazendo a "Física" mais rigorosa dos LLMs. Como mencionei em meus blogs, a maioria dos debates acadêmicos sobre arquitetura é apenas um culto ao cargo porque falham no controle variável. O novo tutorial de Zeyuan prova que um modelo de 100M pode revelar mais verdades arquitetônicas do que um modelo 8B com token de 1T. Se você não está acompanhando isso, está apenas brincando com LEGOs caros no escuro. A indústria finalmente está despertando: escalar sem entender a "Física" é apenas uma aposta de um homem rico.