Перестаньте быть одержимыми мусором о "восемь миллиардов" или "семьдесят миллиардов" "восходящих свойствах". Большая часть того, что вы видите, — это просто шум измерений и мошенничество с эталонами. Я всегда говорил, что Зейуан Аллен-Чжу делает самую строгую "физику" LLM. Как я отметил в своих блогах, большинство академических дебатов по архитектуре — это просто культ груза, потому что они не контролируют переменные. Новый учебник Зейуана доказывает, что модель на 100 миллионов может раскрыть больше архитектурных истин, чем модель на 1 триллион токенов и 8 миллиардов. Если вы не следите за этим, вы просто играете с дорогими LEGO в темноте. Индустрия, наконец, начинает просыпаться: масштабирование без понимания "физики" — это просто азартная игра богатого человека.