Сьогодні до нас приєднався @oliver_wang2, головний науковий співробітник @GoogleDeepMind і технічний керівник Gemini 2.5 Flash Image, більш відомого під кодовою назвою «Nano Banana». Ми занурюємося в розвиток і можливості цієї нещодавно випущеної моделі frontier vision-language, починаючи з більш широкого переходу від спеціалізованих генераторів зображень до мультимодальних агентів загального призначення, які можуть використовувати як візуальні, так і текстові дані для різноманітних завдань. Олівер пояснює, як Nano Banana може генерувати та ітеративно редагувати зображення, зберігаючи при цьому стабільність, а також як його інтеграція зі світовими знаннями Gemini розширює творчі та практичні варіанти використання. Ми обговорюємо напругу між естетикою та точністю, відносну зрілість моделей зображень у порівнянні з текстовими LLM, а також масштабування як рушійну силу прогресу. Олівер також ділиться дивовижною поведінкою, проблемами оцінки моделей мови бачення та ризиками навчання на даних, створених штучним інтелектом. Нарешті, ми дивимося вперед на інтерактивні моделі світів і VLM, які одного дня можуть «думати» і «міркувати» на зображеннях. З повним списком ресурсів для цього епізоду можна ознайомитися на сторінці приміток до шоу: 📖 РОЗДІЛІВ =============================== 00:00 - Вступ 4:39 - Нано банан 5:35 - Nano banana vs Imagen та траєкторія генерації зображень моделей 7:01 - Інтеграція Nano banana в Gemini 9:52 - Nano banana — модель загального призначення 13:42 - Узгодженість моделі та можливості редагування 15:41 - Якість даних та архітектура моделі 18:13 - Приклади використання 24:10 - Одноразові моделі проти вузлових інтерфейсів 28:33 - Тонке налаштування 30:32 - Захоплюючі тренди в генерації зображень і VLM 32:40 - Подолання викликів якості моделі 34:36 - Проблеми з оцінкою моделей 36:32 - Нано банан плюси і мінуси 38:58 - Оперативне переписування 40:36 - Папери 41:52 - Доступність дослідження 46:45 – Домени, які можна перевірити 49:49 - Напруга між точністю та естетикою 52:50 - Вузький розподіл даних при генерації зображень 55:15 – Зображення, створені штучним інтелектом для тренувальних даних 57:56 – Масштаб моделі в порівнянні з кураторством даних 58:55 – Зрілість доменів тексту та зображень