Bugün, @GoogleDeepMind'in baş bilim insanı ve daha çok kod adı "Nano Banana" olarak bilinen Gemini 2.5 Flash Image'ın teknoloji lideri @oliver_wang2 bize katılıyor. Özel görüntü oluşturuculardan çeşitli görevler için hem görsel hem de metinsel verileri kullanabilen genel amaçlı çok modlu aracılara daha geniş bir geçişle başlayarak, bu yeni piyasaya sürülen sınır vizyon dili modelinin gelişimini ve yeteneklerini derinlemesine inceliyoruz. Oliver, Nano Banana'nın tutarlılığı korurken görüntüleri nasıl oluşturabildiğini ve yinelemeli olarak düzenleyebildiğini ve Gemini'nin dünya bilgisiyle entegrasyonunun yaratıcı ve pratik kullanım örneklerini nasıl genişlettiğini açıklıyor. Estetik ve doğruluk arasındaki gerilimi, metin tabanlı LLM'lere kıyasla görüntü modellerinin göreceli olgunluğunu ve ilerlemenin itici gücü olarak ölçeklendirmeyi tartışıyoruz. Oliver ayrıca şaşırtıcı ortaya çıkan davranışları, vizyon-dil modellerini değerlendirmenin zorluklarını ve yapay zeka tarafından oluşturulan veriler üzerinde eğitim almanın risklerini paylaşıyor. Son olarak, bir gün görüntülerde "düşünebilecek" ve "akıl yürütebilecek" etkileşimli dünya modellerini ve VLM'leri sabırsızlıkla bekliyoruz. Bu bölümle ilgili kaynakların tam listesi için gösteri notları sayfasını ziyaret edin: 📖 BÖLÜM =============================== 00:00 - Giriş 4:39 - Nano muz 5:35 - Nano muz ve Imagen ve görüntü oluşturma modellerinin yörüngesi 7:01 - Nano muzun İkizler burcuna entegrasyonu 9:52 - Nano muz— genel amaçlı bir model 13:42 - Model tutarlılığı ve düzenleme özellikleri 15:41 - Veri kalitesi ve model mimarisi 18:13 - Kullanım örnekleri 24:10 - Tek seferlik modeller ve düğüm tabanlı arabirimler 28:33 - İnce ayar 30:32 - Görüntü oluşturma ve VLM'lerde heyecan verici eğilimler 32:40 - Model kalitesinin zorluklarının üstesinden gelme 34:36 - Model değerlendirme zorlukları 36:32 - Nano muz artıları ve eksileri 38:58 - İstem yeniden yazma 40:36 - Makaleler 41:52 - Araştırmanın erişilebilirliği 46:45 - Doğrulanabilir etki alanları 49:49 - Doğruluk ve estetik arasındaki gerilim 52:50 - Görüntü oluşturmada dar veri dağılımı 55:15 - Eğitim verileri için yapay zeka tarafından oluşturulan görüntüler 57:56 - Model ölçeği ve veri iyileştirme karşılaştırması 58:55 - Metin ve görüntü etki alanlarının olgunluğu