Stop met het geobsedeerd zijn door 8B of 70B "emergente eigenschappen" onzin. Het meeste wat je ziet is gewoon meetruis en benchmarkbedrog. Ik heb altijd gezegd dat Zeyuan Allen-Zhu de meest rigoureuze "Fysica" van LLM's doet. Zoals ik in mijn blogs heb opgemerkt, zijn de meeste academische debatten over architectuur gewoon cargo-culting omdat ze falen in variabele controle. Zeyuan's nieuwe tutorial bewijst dat een model van 100M meer architectonische waarheden kan onthullen dan een 1T-token 8B model. Als je dit niet volgt, speel je gewoon met dure LEGO's in het donker. De industrie wordt eindelijk wakker: Schalen zonder de "Fysica" te begrijpen is gewoon gokken voor rijke mensen.