Astăzi, ni se alătură @oliver_wang2, om de știință principal la @GoogleDeepMind și șef tehnic pentru Gemini 2.5 Flash Image - mai bine cunoscut sub numele său de cod, "Nano Banana". Ne scufundăm în dezvoltarea și capacitățile acestui model de limbaj vizual de frontieră recent lansat, începând cu trecerea mai largă de la generatoare de imagini specializate la agenți multimodali de uz general care pot utiliza atât date vizuale, cât și textuale pentru o varietate de sarcini. Oliver explică modul în care Nano Banana poate genera și edita iterativ imagini, menținând în același timp consecvența și modul în care integrarea sa cu cunoștințele lumii Gemini extinde cazurile de utilizare creative și practice. Discutăm tensiunea dintre estetică și acuratețe, maturitatea relativă a modelelor de imagine în comparație cu LLM-urile bazate pe text și scalarea ca motor al progresului. Oliver împărtășește, de asemenea, comportamente emergente surprinzătoare, provocările evaluării modelelor de limbaj vizual și riscurile antrenamentului pe date generate de AI. În cele din urmă, privim înainte la modele interactive de lume și VLM-uri care ar putea într-o zi să "gândească" și să "raționeze" în imagini. Pentru lista completă a resurselor pentru acest episod, vizitați pagina de note ale emisiunii: 📖 CAPITOLE =============================== 00:00 - Introducere 4:39 - Nano banană 5:35 - Nano banana vs Imagen și traiectoria modelelor de generare a imaginilor 7:01 - Integrarea bananei Nano în Gemini 9:52 - Nano banană - un model de uz general 13:42 - Coerența modelului și capabilitățile de editare 15:41 - Calitatea datelor și arhitectura modelului 18:13 - Cazuri de utilizare 24:10 - Modele one-shot vs. interfețe bazate pe noduri 28:33 - Reglarea fină 30:32 - Tendințe interesante în generarea de imagini și VLM-uri 32:40 - Depășirea provocărilor calității modelelor 34:36 - Provocări de evaluare a modelului 36:32 - Nano banana pro și contra 38:58 - Rescriere promptă 40:36 - Lucrări 41:52 - Accesibilitatea cercetării 46:45 - Domenii verificabile 49:49 - Tensiunea dintre acuratețe și estetică 52:50 - Distribuție îngustă a datelor în generarea imaginilor 55:15 - Imagini generate de AI pentru date de antrenament 57:56 - Scara modelului versus organizarea datelor 58:55 - Maturitatea textului versus domeniile imaginii