Herkes ultra seyrek MoE'leri tercih ediyor Alibaba yol haritasını temel alırsak Sonra 10T parametre (%1 aktivasyon, 100B aktif) ve %30 MFU ile 100 Trilyon token üzerinde eğitilmek için 6 * 10e25 FLOP gerekecek 20K H200 kümesinde 58 günde eğitilebilir (satın alırsanız 300 milyon dolar donanım veya kiraladığınızda 60 milyon dolar)