Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Сегодня к нам присоединился @oliver_wang2, главный научный сотрудник в @GoogleDeepMind и технический руководитель Gemini 2.5 Flash Image — более известного под кодовым названием "Нано Банан". Мы погружаемся в разработку и возможности этой недавно выпущенной модели языка и зрения на переднем крае, начиная с более широкого перехода от специализированных генераторов изображений к универсальным мультимодальным агентам, которые могут использовать как визуальные, так и текстовые данные для различных задач. Оливер объясняет, как Нано Банан может генерировать и итеративно редактировать изображения, сохраняя при этом согласованность, и как его интеграция с мировыми знаниями Gemini расширяет творческие и практические области применения. Мы обсуждаем напряжение между эстетикой и точностью, относительную зрелость моделей изображений по сравнению с текстовыми LLM, и масштабирование как движущую силу прогресса. Оливер также делится удивительными возникающими поведениями, проблемами оценки моделей языка и зрения, и рисками обучения на данных, сгенерированных ИИ. Наконец, мы заглядываем в будущее интерактивных мировых моделей и VLM, которые однажды могут "думать" и "рассуждать" в изображениях.
Для полного списка ресурсов для этого эпизода посетите страницу заметок шоу:
📖 ГЛАВЫ
===============================
00:00 - Введение
4:39 - Нано банан
5:35 - Нано банан против Imagen и траектория моделей генерации изображений
7:01 - Интеграция Нано банан в Gemini
9:52 - Нано банан — универсальная модель
13:42 - Согласованность модели и возможности редактирования
15:41 - Качество данных и архитектура модели
18:13 - Области применения
24:10 - Одноразовые модели против интерфейсов на основе узлов
28:33 - Тонкая настройка
30:32 - Увлекательные тенденции в генерации изображений и VLM
32:40 - Преодоление проблем качества модели
34:36 - Проблемы оценки модели
36:32 - Плюсы и минусы Нано банан
38:58 - Переписывание подсказок
40:36 - Статьи
41:52 - Доступность исследований
46:45 - Проверяемые области
49:49 - Напряжение между точностью и эстетикой
52:50 - Узкое распределение данных в генерации изображений
55:15 - Изображения, сгенерированные ИИ, для обучающих данных
57:56 - Масштаб модели против кураторства данных
58:55 - Зрелость текстовых и визуальных областей.
Топ
Рейтинг
Избранное
