Penso che non comprendiamo il comportamento di tali grandi MoE (particolarmente con architetture avanzate post-DSMoE). Ma sappiamo che la scalabilità è buona con lo 0,8% anche a ≈28B in totale. E diventano possibili modi ingegnosi per sfruttare la sparsità oltre a "finer grain". Dico che l'1% a 10T è *conservativo*.