Сегодня к нам присоединился @oliver_wang2, главный научный сотрудник в @GoogleDeepMind и технический руководитель Gemini 2.5 Flash Image — более известного под кодовым названием "Нано Банан". Мы погружаемся в разработку и возможности этой недавно выпущенной модели языка и зрения на переднем крае, начиная с более широкого перехода от специализированных генераторов изображений к универсальным мультимодальным агентам, которые могут использовать как визуальные, так и текстовые данные для различных задач. Оливер объясняет, как Нано Банан может генерировать и итеративно редактировать изображения, сохраняя при этом согласованность, и как его интеграция с мировыми знаниями Gemini расширяет творческие и практические области применения. Мы обсуждаем напряжение между эстетикой и точностью, относительную зрелость моделей изображений по сравнению с текстовыми LLM, и масштабирование как движущую силу прогресса. Оливер также делится удивительными возникающими поведениями, проблемами оценки моделей языка и зрения, и рисками обучения на данных, сгенерированных ИИ. Наконец, мы заглядываем в будущее интерактивных мировых моделей и VLM, которые однажды могут "думать" и "рассуждать" в изображениях. Для полного списка ресурсов для этого эпизода посетите страницу заметок шоу: 📖 ГЛАВЫ =============================== 00:00 - Введение 4:39 - Нано банан 5:35 - Нано банан против Imagen и траектория моделей генерации изображений 7:01 - Интеграция Нано банан в Gemini 9:52 - Нано банан — универсальная модель 13:42 - Согласованность модели и возможности редактирования 15:41 - Качество данных и архитектура модели 18:13 - Области применения 24:10 - Одноразовые модели против интерфейсов на основе узлов 28:33 - Тонкая настройка 30:32 - Увлекательные тенденции в генерации изображений и VLM 32:40 - Преодоление проблем качества модели 34:36 - Проблемы оценки модели 36:32 - Плюсы и минусы Нано банан 38:58 - Переписывание подсказок 40:36 - Статьи 41:52 - Доступность исследований 46:45 - Проверяемые области 49:49 - Напряжение между точностью и эстетикой 52:50 - Узкое распределение данных в генерации изображений 55:15 - Изображения, сгенерированные ИИ, для обучающих данных 57:56 - Масштаб модели против кураторства данных 58:55 - Зрелость текстовых и визуальных областей.