Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoy, estamos acompañados por @oliver_wang2, científico principal en @GoogleDeepMind y líder técnico de Gemini 2.5 Flash Image—mejor conocido por su nombre en código, “Nano Banana.” Nos adentramos en el desarrollo y las capacidades de este modelo de lenguaje-visual de frontera recién lanzado, comenzando con el cambio más amplio de generadores de imágenes especializados a agentes multimodales de propósito general que pueden utilizar tanto datos visuales como textuales para una variedad de tareas. Oliver explica cómo Nano Banana puede generar y editar imágenes de manera iterativa mientras mantiene la consistencia, y cómo su integración con el conocimiento del mundo de Gemini expande los casos de uso creativos y prácticos. Discutimos la tensión entre la estética y la precisión, la madurez relativa de los modelos de imagen en comparación con los LLM basados en texto, y la escalabilidad como motor de progreso. Oliver también comparte comportamientos emergentes sorprendentes, los desafíos de evaluar modelos de lenguaje-visual, y los riesgos de entrenar con datos generados por IA. Finalmente, miramos hacia adelante a modelos de mundo interactivos y VLMs que algún día pueden “pensar” y “razonar” en imágenes.
Para la lista completa de recursos de este episodio, visita la página de notas del programa:
📖 CAPÍTULOS
===============================
00:00 - Introducción
4:39 - Nano banana
5:35 - Nano banana vs Imagen y trayectoria de los modelos de generación de imágenes
7:01 - Integración de Nano banana en Gemini
9:52 - Nano banana— un modelo de propósito general
13:42 - Consistencia del modelo y capacidades de edición
15:41 - Calidad de los datos y arquitectura del modelo
18:13 - Casos de uso
24:10 - Modelos de una sola toma vs. interfaces basadas en nodos
28:33 - Ajuste fino
30:32 - Tendencias emocionantes en generación de imágenes y VLMs
32:40 - Superando los desafíos de calidad del modelo
34:36 - Desafíos de evaluación del modelo
36:32 - Pros y contras de Nano banana
38:58 - Reescritura de prompts
40:36 - Artículos
41:52 - Accesibilidad de la investigación
46:45 - Dominios verificables
49:49 - Tensión entre precisión y estética
52:50 - Distribución de datos estrecha en la generación de imágenes
55:15 - Imágenes generadas por IA para datos de entrenamiento
57:56 - Escala del modelo versus curación de datos
58:55 - Madurez de los dominios de texto frente a los de imagen
Parte superior
Clasificación
Favoritos
