Dnes se k nám připojil @oliver_wang2, hlavní vědecký pracovník společnosti @GoogleDeepMind a technický vedoucí projektu Gemini 2.5 Flash Image – známějšího pod kódovým názvem "Nano Banana". Ponoříme se do vývoje a schopností tohoto nově vydaného modelu jazyka hraničního vidění, počínaje širším posunem od specializovaných generátorů obrazu k univerzálním multimodálním agentům, kteří mohou využívat vizuální i textová data pro různé úkoly. Oliver vysvětluje, jak může Nano Banana generovat a iterativně upravovat obrázky při zachování konzistence a jak jeho integrace se znalostmi světa Gemini rozšiřuje kreativní a praktické případy použití. Diskutujeme napětí mezi estetikou a přesností, relativní vyspělost obrazových modelů ve srovnání s textovými LLM a škálování jako hnací sílu pokroku. Oliver také sdílí překvapivé vznikající chování, výzvy spojené s vyhodnocováním modelů jazyka vidění a rizika trénování na datech generovaných umělou inteligencí. Nakonec se podíváme dopředu na interaktivní modely světa a VLM, které mohou jednoho dne "myslet" a "uvažovat" v obrazech. Úplný seznam zdrojů informací pro tuto epizodu najdete na stránce s poznámkami k pořadu: 📖 KAPITOLY =============================== 00:00 - Úvod 4:39 - Nano banán 5:35 – Nano banán vs Imagen a trajektorie modelů generování obrázků 7:01 - Integrace Nano banánu v Gemini 9:52 – Nano banán – model pro všeobecné použití 13:42 – Konzistence modelu a možnosti úprav 15:41 – Kvalita dat a architektura modelu 18:13 – Případy použití 24:10 – Jednorázové modely vs. rozhraní založená na uzlech 28:33 – Jemné doladění 30:32 - Vzrušující trendy v generování obrazů a VLM 32:40 – Překonání výzev spojených s kvalitou modelu 34:36 – Výzvy vyhodnocení modelu 36:32 – Nano banány klady a zápory 38:58 – Rychlé přepisování 40:36 – Příspěvky 41:52 – Přístupnost výzkumu 46:45 – Ověřitelné domény 49:49 – Napětí mezi přesností a estetikou 52:50 – Úzká distribuce dat při generování obrázků 55:15 – Obrázky generované umělou inteligencí pro trénovací data 57:56 – Měřítko modelu versus kurátorství dat 58:55 – Zralost textových a obrázkových domén