Oggi siamo accompagnati da @oliver_wang2, scienziato principale di @GoogleDeepMind e responsabile tecnico per Gemini 2.5 Flash Image—meglio conosciuto con il nome in codice "Nano Banana". Ci immergiamo nello sviluppo e nelle capacità di questo modello linguistico-visivo di frontiera appena rilasciato, iniziando con il cambiamento più ampio da generatori di immagini specializzati a agenti multimodali di uso generale che possono utilizzare sia dati visivi che testuali per una varietà di compiti. Oliver spiega come Nano Banana possa generare e modificare iterativamente le immagini mantenendo la coerenza, e come la sua integrazione con la conoscenza del mondo di Gemini espanda i casi d'uso creativi e pratici. Discutiamo della tensione tra estetica e accuratezza, della relativa maturità dei modelli di immagini rispetto agli LLM basati su testo, e della scalabilità come motore di progresso. Oliver condivide anche comportamenti emergenti sorprendenti, le sfide nella valutazione dei modelli linguistico-visivi e i rischi di addestramento su dati generati dall'IA. Infine, guardiamo avanti verso modelli mondiali interattivi e VLM che un giorno potrebbero "pensare" e "ragionare" in immagini. Per l'elenco completo delle risorse per questo episodio, visita la pagina delle note dello show: 📖 CAPITOLI =============================== 00:00 - Introduzione 4:39 - Nano banana 5:35 - Nano banana vs Imagen e traiettoria dei modelli di generazione di immagini 7:01 - Integrazione di Nano banana in Gemini 9:52 - Nano banana— un modello di uso generale 13:42 - Coerenza del modello e capacità di editing 15:41 - Qualità dei dati e architettura del modello 18:13 - Casi d'uso 24:10 - Modelli one-shot vs. interfacce basate su nodi 28:33 - Fine-tuning 30:32 - Tendenze entusiasmanti nella generazione di immagini e VLM 32:40 - Superare le sfide della qualità del modello 34:36 - Sfide nella valutazione del modello 36:32 - Pro e contro di Nano banana 38:58 - Riscrittura dei prompt 40:36 - Documenti 41:52 - Accessibilità della ricerca 46:45 - Domini verificabili 49:49 - Tensione tra accuratezza ed estetica 52:50 - Distribuzione dei dati ristretta nella generazione di immagini 55:15 - Immagini generate dall'IA per i dati di addestramento 57:56 - Scala del modello rispetto alla curazione dei dati 58:55 - Maturità dei domini testuali rispetto a quelli visivi