Hari ini, kami bergabung dengan @oliver_wang2, ilmuwan utama di @GoogleDeepMind dan pemimpin teknologi untuk Gemini 2.5 Flash Image—lebih dikenal dengan nama kodenya, "Nano Banana." Kami menyelami pengembangan dan kemampuan model bahasa visi perbatasan yang baru dirilis ini, dimulai dengan pergeseran yang lebih luas dari generator gambar khusus ke agen multimoda tujuan umum yang dapat menggunakan data visual dan tekstual untuk berbagai tugas. Oliver menjelaskan bagaimana Nano Banana dapat menghasilkan dan mengedit gambar secara berulang sambil mempertahankan konsistensi, dan bagaimana integrasinya dengan pengetahuan dunia Gemini memperluas kasus penggunaan yang kreatif dan praktis. Kami membahas ketegangan antara estetika dan akurasi, kematangan relatif model gambar dibandingkan dengan LLM berbasis teks, dan penskalaan sebagai pendorong kemajuan. Oliver juga berbagi perilaku yang mengejutkan yang muncul, tantangan mengevaluasi model bahasa-penglihatan, dan risiko pelatihan pada data yang dihasilkan AI. Akhirnya, kita melihat ke depan untuk model dunia interaktif dan VLM yang suatu hari mungkin "berpikir" dan "beralasan" dalam gambar. Untuk daftar lengkap sumber daya untuk episode ini, kunjungi halaman catatan pertunjukan: 📖 BAB =============================== 00:00 - Pendahuluan 4:39 - Pisang nano 5:35 - Pisang Nano vs Imagen dan lintasan model pembuatan gambar 7:01 - Integrasi pisang Nano di Gemini 9:52 - Pisang nano— model tujuan umum 13:42 - Konsistensi model dan kemampuan pengeditan 15:41 - Kualitas data dan arsitektur model 18:13 - Kasus penggunaan 24:10 - Model satu tembakan vs. antarmuka berbasis node 28:33 - Penyetelan halus 30:32 - Tren menarik dalam pembuatan gambar dan VLM 32:40 - Mengatasi tantangan kualitas model 34:36 - Tantangan evaluasi model 36:32 - Pro dan kontra pisang nano 38:58 - Penulisan ulang yang cepat 40:36 - Makalah 41:52 - Aksesibilitas penelitian 46:45 - Domain yang dapat diverifikasi 49:49 - Ketegangan antara akurasi dan estetika 52:50 - Distribusi data sempit dalam pembuatan gambar 55:15 - Gambar yang dihasilkan AI untuk data pelatihan 57:56 - Skala model versus kurasi data 58:55 - Kematangan domain teks versus gambar