é ridículo que resolvemos o videogen jogando tudo em um transformador. todos os bons vieses indutivos para texto simplesmente não se aplicam realmente em vídeo: você está fazendo atenção entre pedaços de pixel ao longo do tempo e do espaço? e ainda assim funciona fabulosamente bem
a resposta comum é que os modelos apenas querem aprender e os transformers são a única coisa que sabemos escalar muito bem. mas isso levanta a questão de por que os transformers são a única coisa que sabemos escalar? não é apenas um custo irrecuperável
29,78K