Dziś dołącza do nas @oliver_wang2, główny naukowiec w @GoogleDeepMind i lider technologiczny projektu Gemini 2.5 Flash Image—lepiej znany pod kodową nazwą „Nano Banana”. Zgłębiamy rozwój i możliwości tego nowo wydanego modelu językowo-wizualnego na granicy, zaczynając od szerszej zmiany z wyspecjalizowanych generatorów obrazów na ogólne agenty multimodalne, które mogą wykorzystywać zarówno dane wizualne, jak i tekstowe do różnych zadań. Oliver wyjaśnia, jak Nano Banana może generować i iteracyjnie edytować obrazy, zachowując spójność, oraz jak jego integracja z wiedzą o świecie Gemini rozszerza kreatywne i praktyczne zastosowania. Dyskutujemy o napięciu między estetyką a dokładnością, względnej dojrzałości modeli obrazów w porównaniu do modeli LLM opartych na tekście oraz o skalowaniu jako napędzie postępu. Oliver dzieli się również zaskakującymi zachowaniami emergentnymi, wyzwaniami oceny modeli językowo-wizualnych oraz ryzykiem szkolenia na danych generowanych przez AI. Na koniec spoglądamy w przyszłość na interaktywne modele świata i VLM-y, które mogą pewnego dnia „myśleć” i „rozumować” w obrazach. Pełną listę zasobów do tego odcinka znajdziesz na stronie notatek do programu: 📖 ROZDZIAŁY =============================== 00:00 - Wprowadzenie 4:39 - Nano banana 5:35 - Nano banana vs Imagen i trajektoria modeli generacji obrazów 7:01 - Integracja Nano banana w Gemini 9:52 - Nano banana— model ogólnego przeznaczenia 13:42 - Spójność modelu i możliwości edycji 15:41 - Jakość danych i architektura modelu 18:13 - Zastosowania 24:10 - Modele one-shot vs. interfejsy oparte na węzłach 28:33 - Fine-tuning 30:32 - Ekscytujące trendy w generacji obrazów i VLM-ach 32:40 - Pokonywanie wyzwań związanych z jakością modelu 34:36 - Wyzwania oceny modelu 36:32 - Zalety i wady Nano banana 38:58 - Przekształcanie promptów 40:36 - Prace naukowe 41:52 - Dostępność badań 46:45 - Weryfikowalne obszary 49:49 - Napięcie między dokładnością a estetyką 52:50 - Wąska dystrybucja danych w generacji obrazów 55:15 - Obrazy generowane przez AI jako dane do szkolenia 57:56 - Skala modelu a kuracja danych 58:55 - Dojrzałość tekstu w porównaniu do obszarów obrazów.