Hoy, nos acompaña @oliver_wang2, científico principal de @GoogleDeepMind y líder técnico de Gemini 2.5 Flash Image, más conocido por su nombre en clave, "Nano Banana". Nos sumergimos en el desarrollo y las capacidades de este modelo de lenguaje de visión de frontera recientemente lanzado, comenzando con el cambio más amplio de generadores de imágenes especializados a agentes multimodales de propósito general que pueden usar datos visuales y textuales para una variedad de tareas. Oliver explica cómo Nano Banana puede generar y editar imágenes de forma iterativa manteniendo la coherencia, y cómo su integración con el conocimiento mundial de Gemini amplía los casos de uso creativos y prácticos. Discutimos la tensión entre la estética y la precisión, la madurez relativa de los modelos de imagen en comparación con los LLM basados en texto y la escala como motor del progreso. Oliver también comparte comportamientos emergentes sorprendentes, los desafíos de evaluar modelos de lenguaje de visión y los riesgos del entrenamiento con datos generados por IA. Finalmente, miramos hacia adelante a los modelos de mundo interactivos y VLM que algún día pueden "pensar" y "razonar" en imágenes. Para obtener la lista completa de recursos para este episodio, visite la página de notas del programa: 📖 CAPÍTULOS =============================== 00:00 - Introducción 4:39 - Nano plátano 5:35 - Nano banana vs Imagen y trayectoria de los modelos de generación de imágenes 7:01 - Integración del nanoplátano en Géminis 9:52 - Nano banana: un modelo de uso general 13:42 - Coherencia del modelo y capacidades de edición 15:41 - Calidad de los datos y arquitectura del modelo 18:13 - Casos de uso 24:10 - Modelos de una sola vez frente a interfaces basadas en nodos 28:33 - Ajuste fino 30:32 - Tendencias emocionantes en la generación de imágenes y VLM 32:40 - Superando los desafíos de la calidad del modelo 34:36 - Desafíos de evaluación de modelos 36:32 - Pros y contras del nanoplátano 38:58 - Reescritura rápida 40:36 - Ponencias 41:52 - Accesibilidad de la investigación 46:45 - Dominios verificables 49:49 - Tensión entre precisión y estética 52:50 - Distribución de datos limitada en la generación de imágenes 55:15 - Imágenes generadas por IA para datos de entrenamiento 57:56 - Escala de modelo frente a conservación de datos 58:55 - Madurez de los dominios de texto frente a imagen