Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Astăzi, ni se alătură @oliver_wang2, om de știință principal la @GoogleDeepMind și șef tehnic pentru Gemini 2.5 Flash Image - mai bine cunoscut sub numele său de cod, "Nano Banana". Ne scufundăm în dezvoltarea și capacitățile acestui model de limbaj vizual de frontieră recent lansat, începând cu trecerea mai largă de la generatoare de imagini specializate la agenți multimodali de uz general care pot utiliza atât date vizuale, cât și textuale pentru o varietate de sarcini. Oliver explică modul în care Nano Banana poate genera și edita iterativ imagini, menținând în același timp consecvența și modul în care integrarea sa cu cunoștințele lumii Gemini extinde cazurile de utilizare creative și practice. Discutăm tensiunea dintre estetică și acuratețe, maturitatea relativă a modelelor de imagine în comparație cu LLM-urile bazate pe text și scalarea ca motor al progresului. Oliver împărtășește, de asemenea, comportamente emergente surprinzătoare, provocările evaluării modelelor de limbaj vizual și riscurile antrenamentului pe date generate de AI. În cele din urmă, privim înainte la modele interactive de lume și VLM-uri care ar putea într-o zi să "gândească" și să "raționeze" în imagini.
Pentru lista completă a resurselor pentru acest episod, vizitați pagina de note ale emisiunii:
📖 CAPITOLE
===============================
00:00 - Introducere
4:39 - Nano banană
5:35 - Nano banana vs Imagen și traiectoria modelelor de generare a imaginilor
7:01 - Integrarea bananei Nano în Gemini
9:52 - Nano banană - un model de uz general
13:42 - Coerența modelului și capabilitățile de editare
15:41 - Calitatea datelor și arhitectura modelului
18:13 - Cazuri de utilizare
24:10 - Modele one-shot vs. interfețe bazate pe noduri
28:33 - Reglarea fină
30:32 - Tendințe interesante în generarea de imagini și VLM-uri
32:40 - Depășirea provocărilor calității modelelor
34:36 - Provocări de evaluare a modelului
36:32 - Nano banana pro și contra
38:58 - Rescriere promptă
40:36 - Lucrări
41:52 - Accesibilitatea cercetării
46:45 - Domenii verificabile
49:49 - Tensiunea dintre acuratețe și estetică
52:50 - Distribuție îngustă a datelor în generarea imaginilor
55:15 - Imagini generate de AI pentru date de antrenament
57:56 - Scara modelului versus organizarea datelor
58:55 - Maturitatea textului versus domeniile imaginii
Limită superioară
Clasament
Favorite
