Przestań być obsesyjny na punkcie 8B lub 70B "właściwości emergentnych". Większość tego, co widzisz, to po prostu szum pomiarowy i oszustwa w benchmarkach. Zawsze mówiłem, że Zeyuan Allen-Zhu robi najbardziej rygorystyczną "fizykę" LLM-ów. Jak zauważyłem w moich blogach, większość akademickich debat na temat architektury to po prostu kult cargo, ponieważ nie radzą sobie z kontrolą zmiennych. Nowy tutorial Zeyuana dowodzi, że model 100M może ujawnić więcej prawd architektonicznych niż model 1T-token 8B. Jeśli tego nie śledzisz, po prostu bawisz się drogimi LEGO w ciemności. Przemysł w końcu się budzi: Skalowanie bez zrozumienia "fizyki" to po prostu hazard bogatego człowieka.