トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
本日は、@GoogleDeepMindの主任科学者であり、コードネーム「Nano Banana」でよく知られているGemini 2.5 Flash Imageの技術リーダーである@oliver_wang2氏が参加します。この新しくリリースされたフロンティア ビジョン言語モデルの開発と機能について、特殊な画像ジェネレーターから、さまざまなタスクに視覚データとテキスト データの両方を使用できる汎用マルチモーダル エージェントへの広範な移行から始めて詳しく説明します。オリバー氏は、Nano Banana が一貫性を保ちながら画像を生成および反復編集する方法と、Gemini の世界知識との統合により創造的で実用的なユースケースがどのように拡大するかについて説明します。美学と正確さの間の緊張関係、テキストベースのLLMと比較した画像モデルの相対的な成熟度、進歩の原動力としてのスケーリングについて説明します。オリバー氏はまた、驚くべき創発的な行動、ビジョン言語モデルを評価する際の課題、AI が生成したデータでトレーニングするリスクについても共有しています。最後に、いつか画像で「考える」と「推論する」かもしれないインタラクティブな世界モデルとVLMを見据えています。
このエピソードのリソースの完全なリストについては、番組ノートのページをご覧ください。
📖 章
===============================
00:00 - はじめに
4:39 - ナノバナナ
5:35 - ナノバナナとイメージと画像生成モデルの軌跡
7:01 - 双子座におけるナノバナナの統合
9:52 - ナノバナナ — 汎用モデル
13:42 - モデルの一貫性と編集機能
15:41 - データ品質とモデル アーキテクチャ
18:13 - ユースケース
24:10 - ワンショットモデルとノードベースのインターフェイス
28:33 - 微調整
30:32 - 画像生成と VLM のエキサイティングなトレンド
32:40 - モデル品質の課題を克服する
34:36 - モデル評価の課題
36:32 - ナノバナナの長所と短所
38:58 - プロンプト書き換え
40:36 - 論文
41:52 - 研究のアクセシビリティ
46:45 - 検証可能なドメイン
49:49 - 正確さと美学の間の緊張
52:50 - 画像生成における狭いデータ分布
55:15 - トレーニング データ用の AI 生成画像
57:56 - モデルスケールとデータキュレーション
58:55 - テキストドメインと画像ドメインの成熟度
トップ
ランキング
お気に入り
