Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoy, nos acompaña @oliver_wang2, científico principal de @GoogleDeepMind y líder técnico de Gemini 2.5 Flash Image, más conocido por su nombre en clave, "Nano Banana". Nos sumergimos en el desarrollo y las capacidades de este modelo de lenguaje de visión de frontera recientemente lanzado, comenzando con el cambio más amplio de generadores de imágenes especializados a agentes multimodales de propósito general que pueden usar datos visuales y textuales para una variedad de tareas. Oliver explica cómo Nano Banana puede generar y editar imágenes de forma iterativa manteniendo la coherencia, y cómo su integración con el conocimiento mundial de Gemini amplía los casos de uso creativos y prácticos. Discutimos la tensión entre la estética y la precisión, la madurez relativa de los modelos de imagen en comparación con los LLM basados en texto y la escala como motor del progreso. Oliver también comparte comportamientos emergentes sorprendentes, los desafíos de evaluar modelos de lenguaje de visión y los riesgos del entrenamiento con datos generados por IA. Finalmente, miramos hacia adelante a los modelos de mundo interactivos y VLM que algún día pueden "pensar" y "razonar" en imágenes.
Para obtener la lista completa de recursos para este episodio, visite la página de notas del programa:
📖 CAPÍTULOS
===============================
00:00 - Introducción
4:39 - Nano plátano
5:35 - Nano banana vs Imagen y trayectoria de los modelos de generación de imágenes
7:01 - Integración del nanoplátano en Géminis
9:52 - Nano banana: un modelo de uso general
13:42 - Coherencia del modelo y capacidades de edición
15:41 - Calidad de los datos y arquitectura del modelo
18:13 - Casos de uso
24:10 - Modelos de una sola vez frente a interfaces basadas en nodos
28:33 - Ajuste fino
30:32 - Tendencias emocionantes en la generación de imágenes y VLM
32:40 - Superando los desafíos de la calidad del modelo
34:36 - Desafíos de evaluación de modelos
36:32 - Pros y contras del nanoplátano
38:58 - Reescritura rápida
40:36 - Ponencias
41:52 - Accesibilidad de la investigación
46:45 - Dominios verificables
49:49 - Tensión entre precisión y estética
52:50 - Distribución de datos limitada en la generación de imágenes
55:15 - Imágenes generadas por IA para datos de entrenamiento
57:56 - Escala de modelo frente a conservación de datos
58:55 - Madurez de los dominios de texto frente a imagen
Populares
Ranking
Favoritas
