Saya pikir kita tidak memahami perilaku MoE sebesar itu (terutama dengan arsitektur pasca-DSMoE yang canggih). Tapi kami tahu penskalaan bagus dengan 0,8% bahkan pada total ≈28B. Dan cara-cara cerdas untuk mengeksploitasi kelangkaan di luar "butiran halus" menjadi mungkin. Saya katakan 1% pada 10T adalah *konservatif*.