Jeg tror vi ikke forstår oppførselen til så store MoE-er (spesielt med avanserte post-DSMoE-arkitekturer). Men vi vet at skaleringen er god med 0,8 % selv på totalt ≈28 milliarder. Og smarte måter å utnytte sparsomhet på utover «finere korn» blir mulige. Jeg sier at 1 % på 10 tonn er *konservativt*.