Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dziś dołącza do nas @oliver_wang2, główny naukowiec w @GoogleDeepMind i lider technologiczny projektu Gemini 2.5 Flash Image—lepiej znany pod kodową nazwą „Nano Banana”. Zgłębiamy rozwój i możliwości tego nowo wydanego modelu językowo-wizualnego na granicy, zaczynając od szerszej zmiany z wyspecjalizowanych generatorów obrazów na ogólne agenty multimodalne, które mogą wykorzystywać zarówno dane wizualne, jak i tekstowe do różnych zadań. Oliver wyjaśnia, jak Nano Banana może generować i iteracyjnie edytować obrazy, zachowując spójność, oraz jak jego integracja z wiedzą o świecie Gemini rozszerza kreatywne i praktyczne zastosowania. Dyskutujemy o napięciu między estetyką a dokładnością, względnej dojrzałości modeli obrazów w porównaniu do modeli LLM opartych na tekście oraz o skalowaniu jako napędzie postępu. Oliver dzieli się również zaskakującymi zachowaniami emergentnymi, wyzwaniami oceny modeli językowo-wizualnych oraz ryzykiem szkolenia na danych generowanych przez AI. Na koniec spoglądamy w przyszłość na interaktywne modele świata i VLM-y, które mogą pewnego dnia „myśleć” i „rozumować” w obrazach.
Pełną listę zasobów do tego odcinka znajdziesz na stronie notatek do programu:
📖 ROZDZIAŁY
===============================
00:00 - Wprowadzenie
4:39 - Nano banana
5:35 - Nano banana vs Imagen i trajektoria modeli generacji obrazów
7:01 - Integracja Nano banana w Gemini
9:52 - Nano banana— model ogólnego przeznaczenia
13:42 - Spójność modelu i możliwości edycji
15:41 - Jakość danych i architektura modelu
18:13 - Zastosowania
24:10 - Modele one-shot vs. interfejsy oparte na węzłach
28:33 - Fine-tuning
30:32 - Ekscytujące trendy w generacji obrazów i VLM-ach
32:40 - Pokonywanie wyzwań związanych z jakością modelu
34:36 - Wyzwania oceny modelu
36:32 - Zalety i wady Nano banana
38:58 - Przekształcanie promptów
40:36 - Prace naukowe
41:52 - Dostępność badań
46:45 - Weryfikowalne obszary
49:49 - Napięcie między dokładnością a estetyką
52:50 - Wąska dystrybucja danych w generacji obrazów
55:15 - Obrazy generowane przez AI jako dane do szkolenia
57:56 - Skala modelu a kuracja danych
58:55 - Dojrzałość tekstu w porównaniu do obszarów obrazów.
Najlepsze
Ranking
Ulubione
