Hoy, estamos acompañados por @oliver_wang2, científico principal en @GoogleDeepMind y líder técnico de Gemini 2.5 Flash Image—mejor conocido por su nombre en código, “Nano Banana.” Nos adentramos en el desarrollo y las capacidades de este modelo de lenguaje-visual de frontera recién lanzado, comenzando con el cambio más amplio de generadores de imágenes especializados a agentes multimodales de propósito general que pueden utilizar tanto datos visuales como textuales para una variedad de tareas. Oliver explica cómo Nano Banana puede generar y editar imágenes de manera iterativa mientras mantiene la consistencia, y cómo su integración con el conocimiento del mundo de Gemini expande los casos de uso creativos y prácticos. Discutimos la tensión entre la estética y la precisión, la madurez relativa de los modelos de imagen en comparación con los LLM basados en texto, y la escalabilidad como motor de progreso. Oliver también comparte comportamientos emergentes sorprendentes, los desafíos de evaluar modelos de lenguaje-visual, y los riesgos de entrenar con datos generados por IA. Finalmente, miramos hacia adelante a modelos de mundo interactivos y VLMs que algún día pueden “pensar” y “razonar” en imágenes. Para la lista completa de recursos de este episodio, visita la página de notas del programa: 📖 CAPÍTULOS =============================== 00:00 - Introducción 4:39 - Nano banana 5:35 - Nano banana vs Imagen y trayectoria de los modelos de generación de imágenes 7:01 - Integración de Nano banana en Gemini 9:52 - Nano banana— un modelo de propósito general 13:42 - Consistencia del modelo y capacidades de edición 15:41 - Calidad de los datos y arquitectura del modelo 18:13 - Casos de uso 24:10 - Modelos de una sola toma vs. interfaces basadas en nodos 28:33 - Ajuste fino 30:32 - Tendencias emocionantes en generación de imágenes y VLMs 32:40 - Superando los desafíos de calidad del modelo 34:36 - Desafíos de evaluación del modelo 36:32 - Pros y contras de Nano banana 38:58 - Reescritura de prompts 40:36 - Artículos 41:52 - Accesibilidad de la investigación 46:45 - Dominios verificables 49:49 - Tensión entre precisión y estética 52:50 - Distribución de datos estrecha en la generación de imágenes 55:15 - Imágenes generadas por IA para datos de entrenamiento 57:56 - Escala del modelo versus curación de datos 58:55 - Madurez de los dominios de texto frente a los de imagen