O meu artigo favorito este ano: "Modelos de vídeo são aprendizes e raciocinadores zero-shot" Ele ilustra que os modelos de vídeo mostram raciocínio visual emergente em grande escala - eles conseguem resolver tarefas de visão para as quais não foram treinados. Este pode ser o "momento GPT" para a visão. Vamos analisar isso 👇
Para começar - por que acreditar que os modelos de vídeo podem desenvolver raciocínio visual? Aconteceu algo semelhante com o texto. Costumávamos treinar modelos específicos para cada tarefa - mas agora, os LLMs têm uma compreensão geral da linguagem e podem lidar com muitas tarefas para as quais não foram explicitamente treinados. É viável que os modelos de vídeo possam fazer o mesmo em grande escala.
Este artigo mediu mais de 18 mil vídeos gerados pelo Veo 3 em tarefas qualitativas e quantitativas. Descobriu-se que o Veo pode perceber, modificar e manipular o mundo visual (começando a partir de imagens + prompts de texto) - demonstrando habilidades iniciais de raciocínio para as quais não foi explicitamente treinado. Vamos abordar cada categoria uma a uma.
👀 Percepção - quando solicitado, o Veo pode detectar bordas e identificar objetos distintos em uma cena. Isso significa que ele pode funcionar como um modelo de segmentação, apesar de não ter sido treinado para essa tarefa, o que tem algumas implicações interessantes a montante. 1) "Adicione um ponto azul brilhante na ponta do galho onde o arara está pousada. O olho da arara fica brilhantemente vermelho. Tudo o mais fica preto como carvão." 2) "A bola azul começa a brilhar instantaneamente. Perspectiva de câmera estática."
🌐 Modelagem - Veo pode modelar o mundo (e os princípios que o governam) com base nesta percepção. Demonstra uma forte compreensão da física - coisas como resistência do ar e flutuabilidade, fenômenos ópticos como refração e reflexão, e mistura de cores. 1) "A mão solta o objeto" 2) "Uma esfera de metal polido gigante rola pela sala"
🤏 Manipulação - Veo pode manipular o mundo visual com base nesta percepção e modelagem. Isto permite tarefas de edição de imagem zero-shot - pense em coisas como composição de cena, remoção de fundo, transferência de estilo, ou até mesmo manipulação hábil. 1) "Use o bom senso e faça com que as duas mãos robóticas ligadas aos braços abram o frasco, como um humano faria." 2) "Transforme este selfie em uma foto profissional para o LinkedIn."
🤔 Raciocínio visual - todas as habilidades acima resultam em raciocínio. Isto é medido ao dar ao modelo desafios baseados na visão que requerem raciocínio passo a passo. Pense em fazer analogias, resolver labirintos ou quebra-cabeças, usar ferramentas ou percorrer um gráfico. 1) "Sem cruzar qualquer limite preto, o rato cinza do canto navega habilidosamente pelo labirinto, caminhando ao redor até encontrar o queijo amarelo." 2) "Modifique a grade inferior direita para aderir à regra estabelecida pelas outras grades. Você pode preencher células, limpar células ou mudar a cor de uma célula."
Aqui está a ótima notícia: o raciocínio visual está a melhorar com o tempo. O desempenho em muitas dessas tarefas aumentou significativamente entre o Veo 2 e o Veo 3. Incluí alguns exemplos abaixo. Resumindo - "Se você está à espera de física precisa em modelos de vídeo, fique na fila" 😂
241