Myslím, že nechápeme chování tak velkých MoE (zejména u pokročilých post-DSMoE architektur). Ale víme, že škálování je dobré, i když je to 0,8 % i při celkovém ≈28 miliardů. A chytré způsoby, jak využít řídkosti nad rámec "jemnějšího zrna", se stávají možnými. Říkám, že 1 % při 10T je *konzervativní*.