Hoje, temos a companhia de @oliver_wang2, cientista principal da @GoogleDeepMind e líder técnico da Gemini 2.5 Flash Image, mais conhecida por seu codinome, "Nano Banana". Mergulhamos no desenvolvimento e nos recursos desse modelo de linguagem de visão de fronteira recém-lançado, começando com a mudança mais ampla de geradores de imagens especializados para agentes multimodais de uso geral que podem usar dados visuais e textuais para uma variedade de tarefas. Oliver explica como o Nano Banana pode gerar e editar imagens iterativamente, mantendo a consistência, e como sua integração com o conhecimento mundial do Gemini expande casos de uso criativos e práticos. Discutimos a tensão entre estética e precisão, a maturidade relativa dos modelos de imagem em comparação com LLMs baseados em texto e o dimensionamento como um impulsionador do progresso. Oliver também compartilha comportamentos emergentes surpreendentes, os desafios de avaliar modelos de linguagem de visão e os riscos do treinamento em dados gerados por IA. Finalmente, olhamos para os modelos de mundo interativos e VLMs que podem um dia "pensar" e "raciocinar" em imagens. Para obter a lista completa de recursos para este episódio, visite a página de notas do programa: 📖 CAPÍTULOS =============================== 00:00 – Introdução 4:39 – Nano banana 5:35 – Nano banana vs Imagen e trajetória de modelos de geração de imagens 7:01 – Integração da Nano banana no Gemini 9:52 - Nano banana - um modelo de uso geral 13:42 – Consistência do modelo e recursos de edição 15:41 – Qualidade de dados e arquitetura de modelo 18:13 – Casos de uso 24:10 – Modelos one-shot versus interfaces baseadas em nó 28:33 – Ajuste fino 30:32 – Tendências interessantes na geração de imagens e VLMs 32:40 – Superando os desafios da qualidade do modelo 34:36 – Desafios de avaliação do modelo 36:32 – Prós e contras da nano banana 38:58 – Reescrita imediata 40:36 – Artigos 41:52 – Acessibilidade da pesquisa 46:45 – Domínios verificáveis 49:49 – Tensão entre precisão e estética 52:50 – Distribuição de dados estreita na geração de imagens 55:15 – Imagens geradas por IA para dados de treinamento 57:56 – Escala do modelo versus curadoria de dados 58:55 – Maturidade de texto versus domínios de imagem