اليوم ، انضم إلينا @oliver_wang2 ، العالم الرئيسي في @GoogleDeepMind والرائد التقني ل Gemini 2.5 Flash Image - المعروف باسمه الرمزي ، "Nano Banana". نتعمق في تطوير وقدرات نموذج لغة الرؤية الحدودي الذي تم إصداره حديثا ، بدءا من التحول الأوسع من مولدات الصور المتخصصة إلى العوامل متعددة الوسائط للأغراض العامة التي يمكنها استخدام البيانات المرئية والنصية لمجموعة متنوعة من المهام. يشرح أوليفر كيف يمكن ل Nano Banana إنشاء الصور وتحريرها بشكل متكرر مع الحفاظ على الاتساق ، وكيف أن تكامله مع معرفة Gemini العالمية يوسع حالات الاستخدام الإبداعية والعملية. نناقش التوتر بين الجماليات والدقة ، والنضج النسبي لنماذج الصور مقارنة ب LLMs المستندة إلى النص ، والتوسع كمحرك للتقدم. يشارك أوليفر أيضا السلوكيات الناشئة المفاجئة ، وتحديات تقييم نماذج لغة الرؤية ، ومخاطر التدريب على البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. أخيرا ، نتطلع إلى نماذج العالم التفاعلية و VLMs التي قد "تفكر" و "تفكر" يوما ما في الصور. للحصول على القائمة الكاملة للموارد لهذه الحلقة ، قم بزيارة صفحة ملاحظات العرض: 📖 الفصول =============================== 00:00 - مقدمة 4:39 - نانو موز 5:35 - نانو موز مقابل Imagen ومسار نماذج توليد الصور 7:01 - دمج نانو الموز في الجوزاء 9:52 - نانو موز - نموذج للأغراض العامة 13:42 - تناسق النموذج وقدرات التحرير 15:41 - جودة البيانات وبنية النموذج 18:13 - حالات الاستخدام 24:10 - نماذج اللقطة الواحدة مقابل الواجهات المستندة إلى العقدة 28:33 - الضبط الدقيق 30:32 - اتجاهات مثيرة في توليد الصور وVLMs 32:40 - التغلب على تحديات جودة النموذج 34:36 - تحديات تقييم النموذج 36:32 - إيجابيات وسلبيات نانو الموز 38:58 - إعادة الكتابة السريعة 40:36 - أوراق بحثية 41:52 - إمكانية الوصول إلى البحث 46:45 - النطاقات التي يمكن التحقق منها 49:49 - التوتر بين الدقة والجماليات 52:50 - توزيع ضيق للبيانات في إنشاء الصور 55:15 - الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي لبيانات التدريب 57:56 - مقياس النموذج مقابل تنظيم البيانات 58:55 - نضج النص مقابل مجالات الصورة