Hoje, estamos acompanhados por @oliver_wang2, cientista principal na @GoogleDeepMind e líder técnico do Gemini 2.5 Flash Image—mais conhecido pelo seu nome de código, “Nano Banana.” Mergulhamos no desenvolvimento e nas capacidades deste modelo de linguagem-visual de fronteira recém-lançado, começando com a mudança mais ampla de geradores de imagem especializados para agentes multimodais de propósito geral que podem usar dados visuais e textuais para uma variedade de tarefas. Oliver explica como o Nano Banana pode gerar e editar imagens de forma iterativa, mantendo a consistência, e como sua integração com o conhecimento mundial do Gemini expande os casos de uso criativos e práticos. Discutimos a tensão entre estética e precisão, a maturidade relativa dos modelos de imagem em comparação com os LLMs baseados em texto, e a escalabilidade como motor de progresso. Oliver também compartilha comportamentos emergentes surpreendentes, os desafios de avaliar modelos de linguagem-visual, e os riscos de treinar com dados gerados por IA. Finalmente, olhamos para modelos de mundo interativos e VLMs que podem um dia “pensar” e “raciocinar” em imagens. Para a lista completa de recursos deste episódio, visite a página de notas do programa: 📖 CAPÍTULOS =============================== 00:00 - Introdução 4:39 - Nano banana 5:35 - Nano banana vs Imagen e trajetória dos modelos de geração de imagem 7:01 - Integração do Nano banana no Gemini 9:52 - Nano banana— um modelo de propósito geral 13:42 - Consistência do modelo e capacidades de edição 15:41 - Qualidade dos dados e arquitetura do modelo 18:13 - Casos de uso 24:10 - Modelos de uma só vez vs. interfaces baseadas em nós 28:33 - Ajuste fino 30:32 - Tendências empolgantes na geração de imagens e VLMs 32:40 - Superando os desafios da qualidade do modelo 34:36 - Desafios de avaliação do modelo 36:32 - Prós e contras do Nano banana 38:58 - Reescrita de prompts 40:36 - Artigos 41:52 - Acessibilidade da pesquisa 46:45 - Domínios verificáveis 49:49 - Tensão entre precisão e estética 52:50 - Distribuição de dados estreita na geração de imagens 55:15 - Imagens geradas por IA para dados de treinamento 57:56 - Escala do modelo versus curadoria de dados 58:55 - Maturidade dos domínios de texto versus imagem