Hör auf, besessen von 8B oder 70B "emergenten Eigenschaften" Müll zu sein. Das meiste, was du siehst, ist nur Messrauschen und Benchmark-Betrug. Ich habe immer gesagt, dass Zeyuan Allen-Zhu die rigoroseste "Physik" von LLMs macht. Wie ich in meinen Blogs erwähnt habe, sind die meisten akademischen Debatten über Architektur nur Cargo-Kult, weil sie bei der Variablenkontrolle versagen. Zeyuans neues Tutorial beweist, dass ein 100M-Modell mehr architektonische Wahrheiten offenbaren kann als ein 1T-Token 8B-Modell. Wenn du das nicht verfolgst, spielst du nur im Dunkeln mit teuren LEGOs. Die Branche wacht endlich auf: Skalierung ohne Verständnis der "Physik" ist nur das Glücksspiel eines reichen Mannes.