Es ridículo que resolviéramos Videogen metiendo todo en un transformador. Todos los buenos sesgos inductivos para el texto simplemente no se reflejan en el vídeo: ¿estás haciendo atención entre parches de píxeles a través del tiempo y el espacio? Y aun así funciona fabulosamente bien
La respuesta común es que los modelos solo quieren aprender y los transformadores son lo que sabemos escalar muy bien. Pero esto plantea la pregunta: ¿por qué los transformadores son lo único que sabemos escalar? No es solo un coste hundido
29.79K