Alle går for ultra-sparsomme MoEs Hvis vi tar Alibaba-veikartet som et utgangspunkt. Da vil 10T-parametere (med 1 % aktivering, 100B aktive) og trent på 100 billioner tokens med 30 % MFU kreve 6 * 10e25 FLOP-er Det kan trenes på 58 dager på en 20K H200-klynge (300 millioner dollar i maskinvare hvis du kjøper eller 60 millioner dollar hvis du leier)