本日は、@GoogleDeepMindの主任科学者であり、コードネーム「Nano Banana」でよく知られているGemini 2.5 Flash Imageの技術リーダーである@oliver_wang2氏が参加します。この新しくリリースされたフロンティア ビジョン言語モデルの開発と機能について、特殊な画像ジェネレーターから、さまざまなタスクに視覚データとテキスト データの両方を使用できる汎用マルチモーダル エージェントへの広範な移行から始めて詳しく説明します。オリバー氏は、Nano Banana が一貫性を保ちながら画像を生成および反復編集する方法と、Gemini の世界知識との統合により創造的で実用的なユースケースがどのように拡大するかについて説明します。美学と正確さの間の緊張関係、テキストベースのLLMと比較した画像モデルの相対的な成熟度、進歩の原動力としてのスケーリングについて説明します。オリバー氏はまた、驚くべき創発的な行動、ビジョン言語モデルを評価する際の課題、AI が生成したデータでトレーニングするリスクについても共有しています。最後に、いつか画像で「考える」と「推論する」かもしれないインタラクティブな世界モデルとVLMを見据えています。 このエピソードのリソースの完全なリストについては、番組ノートのページをご覧ください。 📖 章 =============================== 00:00 - はじめに 4:39 - ナノバナナ 5:35 - ナノバナナとイメージと画像生成モデルの軌跡 7:01 - 双子座におけるナノバナナの統合 9:52 - ナノバナナ — 汎用モデル 13:42 - モデルの一貫性と編集機能 15:41 - データ品質とモデル アーキテクチャ 18:13 - ユースケース 24:10 - ワンショットモデルとノードベースのインターフェイス 28:33 - 微調整 30:32 - 画像生成と VLM のエキサイティングなトレンド 32:40 - モデル品質の課題を克服する 34:36 - モデル評価の課題 36:32 - ナノバナナの長所と短所 38:58 - プロンプト書き換え 40:36 - 論文 41:52 - 研究のアクセシビリティ 46:45 - 検証可能なドメイン 49:49 - 正確さと美学の間の緊張 52:50 - 画像生成における狭いデータ分布 55:15 - トレーニング データ用の AI 生成画像 57:56 - モデルスケールとデータキュレーション 58:55 - テキストドメインと画像ドメインの成熟度