Je směšné, že jsme vyřešili generování videa tím, že jsme všechno hodili do transformátoru. Všechny ty pěkné indukční zkreslení textu prostě ve videu moc nepřecházejí: děláte pozornost mezi pixelovými plochami napříč časem a prostorem? A přesto to funguje skvěle
Běžná odpověď je, že modely se prostě chtějí učit a transformátory jsou to, co umíme opravdu dobře škálovat. Ale to vyvolává otázku, proč jsou transformátory jedinou věcí, kterou umíme škálovat? Není to jen o utopených nákladech
29,78K