Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oggi siamo accompagnati da @oliver_wang2, scienziato principale di @GoogleDeepMind e responsabile tecnico per Gemini 2.5 Flash Image—meglio conosciuto con il nome in codice "Nano Banana". Ci immergiamo nello sviluppo e nelle capacità di questo modello linguistico-visivo di frontiera appena rilasciato, iniziando con il cambiamento più ampio da generatori di immagini specializzati a agenti multimodali di uso generale che possono utilizzare sia dati visivi che testuali per una varietà di compiti. Oliver spiega come Nano Banana possa generare e modificare iterativamente le immagini mantenendo la coerenza, e come la sua integrazione con la conoscenza del mondo di Gemini espanda i casi d'uso creativi e pratici. Discutiamo della tensione tra estetica e accuratezza, della relativa maturità dei modelli di immagini rispetto agli LLM basati su testo, e della scalabilità come motore di progresso. Oliver condivide anche comportamenti emergenti sorprendenti, le sfide nella valutazione dei modelli linguistico-visivi e i rischi di addestramento su dati generati dall'IA. Infine, guardiamo avanti verso modelli mondiali interattivi e VLM che un giorno potrebbero "pensare" e "ragionare" in immagini.
Per l'elenco completo delle risorse per questo episodio, visita la pagina delle note dello show:
📖 CAPITOLI
===============================
00:00 - Introduzione
4:39 - Nano banana
5:35 - Nano banana vs Imagen e traiettoria dei modelli di generazione di immagini
7:01 - Integrazione di Nano banana in Gemini
9:52 - Nano banana— un modello di uso generale
13:42 - Coerenza del modello e capacità di editing
15:41 - Qualità dei dati e architettura del modello
18:13 - Casi d'uso
24:10 - Modelli one-shot vs. interfacce basate su nodi
28:33 - Fine-tuning
30:32 - Tendenze entusiasmanti nella generazione di immagini e VLM
32:40 - Superare le sfide della qualità del modello
34:36 - Sfide nella valutazione del modello
36:32 - Pro e contro di Nano banana
38:58 - Riscrittura dei prompt
40:36 - Documenti
41:52 - Accessibilità della ricerca
46:45 - Domini verificabili
49:49 - Tensione tra accuratezza ed estetica
52:50 - Distribuzione dei dati ristretta nella generazione di immagini
55:15 - Immagini generate dall'IA per i dati di addestramento
57:56 - Scala del modello rispetto alla curazione dei dati
58:55 - Maturità dei domini testuali rispetto a quelli visivi
Principali
Ranking
Preferiti
