Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bugün, @GoogleDeepMind'in baş bilim insanı ve daha çok kod adı "Nano Banana" olarak bilinen Gemini 2.5 Flash Image'ın teknoloji lideri @oliver_wang2 bize katılıyor. Özel görüntü oluşturuculardan çeşitli görevler için hem görsel hem de metinsel verileri kullanabilen genel amaçlı çok modlu aracılara daha geniş bir geçişle başlayarak, bu yeni piyasaya sürülen sınır vizyon dili modelinin gelişimini ve yeteneklerini derinlemesine inceliyoruz. Oliver, Nano Banana'nın tutarlılığı korurken görüntüleri nasıl oluşturabildiğini ve yinelemeli olarak düzenleyebildiğini ve Gemini'nin dünya bilgisiyle entegrasyonunun yaratıcı ve pratik kullanım örneklerini nasıl genişlettiğini açıklıyor. Estetik ve doğruluk arasındaki gerilimi, metin tabanlı LLM'lere kıyasla görüntü modellerinin göreceli olgunluğunu ve ilerlemenin itici gücü olarak ölçeklendirmeyi tartışıyoruz. Oliver ayrıca şaşırtıcı ortaya çıkan davranışları, vizyon-dil modellerini değerlendirmenin zorluklarını ve yapay zeka tarafından oluşturulan veriler üzerinde eğitim almanın risklerini paylaşıyor. Son olarak, bir gün görüntülerde "düşünebilecek" ve "akıl yürütebilecek" etkileşimli dünya modellerini ve VLM'leri sabırsızlıkla bekliyoruz.
Bu bölümle ilgili kaynakların tam listesi için gösteri notları sayfasını ziyaret edin:
📖 BÖLÜM
===============================
00:00 - Giriş
4:39 - Nano muz
5:35 - Nano muz ve Imagen ve görüntü oluşturma modellerinin yörüngesi
7:01 - Nano muzun İkizler burcuna entegrasyonu
9:52 - Nano muz— genel amaçlı bir model
13:42 - Model tutarlılığı ve düzenleme özellikleri
15:41 - Veri kalitesi ve model mimarisi
18:13 - Kullanım örnekleri
24:10 - Tek seferlik modeller ve düğüm tabanlı arabirimler
28:33 - İnce ayar
30:32 - Görüntü oluşturma ve VLM'lerde heyecan verici eğilimler
32:40 - Model kalitesinin zorluklarının üstesinden gelme
34:36 - Model değerlendirme zorlukları
36:32 - Nano muz artıları ve eksileri
38:58 - İstem yeniden yazma
40:36 - Makaleler
41:52 - Araştırmanın erişilebilirliği
46:45 - Doğrulanabilir etki alanları
49:49 - Doğruluk ve estetik arasındaki gerilim
52:50 - Görüntü oluşturmada dar veri dağılımı
55:15 - Eğitim verileri için yapay zeka tarafından oluşturulan görüntüler
57:56 - Model ölçeği ve veri iyileştirme karşılaştırması
58:55 - Metin ve görüntü etki alanlarının olgunluğu
En İyiler
Sıralama
Takip Listesi
