Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O meu artigo favorito este ano: "Modelos de vídeo são aprendizes e raciocinadores zero-shot"
Ele ilustra que os modelos de vídeo mostram raciocínio visual emergente em grande escala - eles conseguem resolver tarefas de visão para as quais não foram treinados.
Este pode ser o "momento GPT" para a visão. Vamos analisar isso 👇
Para começar - por que acreditar que os modelos de vídeo podem desenvolver raciocínio visual?
Aconteceu algo semelhante com o texto. Costumávamos treinar modelos específicos para cada tarefa - mas agora, os LLMs têm uma compreensão geral da linguagem e podem lidar com muitas tarefas para as quais não foram explicitamente treinados.
É viável que os modelos de vídeo possam fazer o mesmo em grande escala.

Este artigo mediu mais de 18 mil vídeos gerados pelo Veo 3 em tarefas qualitativas e quantitativas.
Descobriu-se que o Veo pode perceber, modificar e manipular o mundo visual (começando a partir de imagens + prompts de texto) - demonstrando habilidades iniciais de raciocínio para as quais não foi explicitamente treinado.
Vamos abordar cada categoria uma a uma.

👀 Percepção - quando solicitado, o Veo pode detectar bordas e identificar objetos distintos em uma cena.
Isso significa que ele pode funcionar como um modelo de segmentação, apesar de não ter sido treinado para essa tarefa, o que tem algumas implicações interessantes a montante.
1) "Adicione um ponto azul brilhante na ponta do galho onde o arara está pousada. O olho da arara fica brilhantemente vermelho. Tudo o mais fica preto como carvão."
2) "A bola azul começa a brilhar instantaneamente. Perspectiva de câmera estática."
🌐 Modelagem - Veo pode modelar o mundo (e os princípios que o governam) com base nesta percepção.
Demonstra uma forte compreensão da física - coisas como resistência do ar e flutuabilidade, fenômenos ópticos como refração e reflexão, e mistura de cores.
1) "A mão solta o objeto"
2) "Uma esfera de metal polido gigante rola pela sala"
🤏 Manipulação - Veo pode manipular o mundo visual com base nesta percepção e modelagem.
Isto permite tarefas de edição de imagem zero-shot - pense em coisas como composição de cena, remoção de fundo, transferência de estilo, ou até mesmo manipulação hábil.
1) "Use o bom senso e faça com que as duas mãos robóticas ligadas aos braços abram o frasco, como um humano faria."
2) "Transforme este selfie em uma foto profissional para o LinkedIn."
🤔 Raciocínio visual - todas as habilidades acima resultam em raciocínio.
Isto é medido ao dar ao modelo desafios baseados na visão que requerem raciocínio passo a passo.
Pense em fazer analogias, resolver labirintos ou quebra-cabeças, usar ferramentas ou percorrer um gráfico.
1) "Sem cruzar qualquer limite preto, o rato cinza do canto navega habilidosamente pelo labirinto, caminhando ao redor até encontrar o queijo amarelo."
2) "Modifique a grade inferior direita para aderir à regra estabelecida pelas outras grades. Você pode preencher células, limpar células ou mudar a cor de uma célula."
Aqui está a ótima notícia: o raciocínio visual está a melhorar com o tempo.
O desempenho em muitas dessas tarefas aumentou significativamente entre o Veo 2 e o Veo 3. Incluí alguns exemplos abaixo.
Resumindo - "Se você está à espera de física precisa em modelos de vídeo, fique na fila" 😂

241
Top
Classificação
Favoritos
