Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoje, estamos acompanhados por @oliver_wang2, cientista principal na @GoogleDeepMind e líder técnico do Gemini 2.5 Flash Image—mais conhecido pelo seu nome de código, “Nano Banana.” Mergulhamos no desenvolvimento e nas capacidades deste modelo de linguagem-visual de fronteira recém-lançado, começando com a mudança mais ampla de geradores de imagem especializados para agentes multimodais de propósito geral que podem usar dados visuais e textuais para uma variedade de tarefas. Oliver explica como o Nano Banana pode gerar e editar imagens de forma iterativa, mantendo a consistência, e como sua integração com o conhecimento mundial do Gemini expande os casos de uso criativos e práticos. Discutimos a tensão entre estética e precisão, a maturidade relativa dos modelos de imagem em comparação com os LLMs baseados em texto, e a escalabilidade como motor de progresso. Oliver também compartilha comportamentos emergentes surpreendentes, os desafios de avaliar modelos de linguagem-visual, e os riscos de treinar com dados gerados por IA. Finalmente, olhamos para modelos de mundo interativos e VLMs que podem um dia “pensar” e “raciocinar” em imagens.
Para a lista completa de recursos deste episódio, visite a página de notas do programa:
📖 CAPÍTULOS
===============================
00:00 - Introdução
4:39 - Nano banana
5:35 - Nano banana vs Imagen e trajetória dos modelos de geração de imagem
7:01 - Integração do Nano banana no Gemini
9:52 - Nano banana— um modelo de propósito geral
13:42 - Consistência do modelo e capacidades de edição
15:41 - Qualidade dos dados e arquitetura do modelo
18:13 - Casos de uso
24:10 - Modelos de uma só vez vs. interfaces baseadas em nós
28:33 - Ajuste fino
30:32 - Tendências empolgantes na geração de imagens e VLMs
32:40 - Superando os desafios da qualidade do modelo
34:36 - Desafios de avaliação do modelo
36:32 - Prós e contras do Nano banana
38:58 - Reescrita de prompts
40:36 - Artigos
41:52 - Acessibilidade da pesquisa
46:45 - Domínios verificáveis
49:49 - Tensão entre precisão e estética
52:50 - Distribuição de dados estreita na geração de imagens
55:15 - Imagens geradas por IA para dados de treinamento
57:56 - Escala do modelo versus curadoria de dados
58:55 - Maturidade dos domínios de texto versus imagem
Top
Classificação
Favoritos
