Consegui acesso antecipado ao PixVerse-R1, um modelo do mundo real. Isso é bem promissor! R1 é um paradigma fundamentalmente diferente: Em vez de gerar clipes fixos, ele cria fluxos visuais infinitos e contínuos que respondem instantaneamente à entrada do usuário. (Códigos de convite abaixo)
A plataforma gera vídeos visivelmente rápido! Você pode começar com um clipe e adicionar novas cenas a ele. O modelo mantém a consistência conforme você avança. A maioria das ferramentas de vídeo te dá um clipe, e você recomeça. Isso parece mais como dirigir algo que já está em movimento.
A arquitetura do modelo de @PixVerse_ possui três peças críticas: 1. Um modelo nativo multimodal de fundação que unifica texto, imagem, vídeo e áudio em um único fluxo de tokens. 2. Um mecanismo de memória autorregressiva que mantém consistência em sequências longas indefinidamente. 3. Um "Motor de Resposta Instantânea" que reduz os passos de amostragem de dezenas para 1-4. Essa última parte é fundamental: é o que faz esse modelo funcionar em tempo real.
Fazer o modelo gerar exatamente o que você tem em mente ainda é difícil. São necessárias várias tentativas para realizar uma história específica. Esse é um problema com a geração de vídeo em geral. Ainda estamos longe de substituir Hollywood.
Existem várias limitações na geração de vídeo em tempo real: 1. Pequenos erros de previsão se acumulam ao longo de sequências estendidas 2. Custos computacionais são altos (e ainda são um gargalo) Estamos cedo, mas a trajetória aqui está bem boa!
O futuro é realmente promissor: • Um jogo que gera os ambientes enquanto você joga. 100% na hora. • Um filme onde o espectador influencia os resultados narrativos. • Simulações para pesquisa, planejamento industrial e até modelagem ecológica que evoluem com base em decisões. Esse é o objetivo aqui: Ter "mundos persistentes e interativos em vez de artefatos midiáticos finitos."
258