Všichni jdou na ultra-řídké MoE Pokud vezmeme Alibaba roadmapu jako výchozí bod Pak 10T parametrů (s 1% aktivací, 100B aktivací) a trénovaných na 100 bilionech tokenů při 30% MFU bude vyžadovat 6 * 10e25 FLOP Lze jej trénovat za 58 dní na 20K H200 clusteru (300 milionů dolarů v hardwaru, pokud si koupíte, nebo 60 milionů dolarů, pokud si pronajímáte)