Aujourd'hui, nous sommes rejoints par @oliver_wang2, scientifique principal chez @GoogleDeepMind et responsable technique de Gemini 2.5 Flash Image—mieux connu sous son nom de code, "Nano Banana". Nous plongeons dans le développement et les capacités de ce modèle de vision-langage de pointe récemment publié, en commençant par le changement plus large des générateurs d'images spécialisés vers des agents multimodaux à usage général qui peuvent utiliser à la fois des données visuelles et textuelles pour une variété de tâches. Oliver explique comment Nano Banana peut générer et éditer des images de manière itérative tout en maintenant la cohérence, et comment son intégration avec les connaissances mondiales de Gemini élargit les cas d'utilisation créatifs et pratiques. Nous discutons de la tension entre l'esthétique et l'exactitude, de la maturité relative des modèles d'images par rapport aux LLM basés sur le texte, et de l'échelle comme moteur de progrès. Oliver partage également des comportements émergents surprenants, les défis de l'évaluation des modèles de vision-langage, et les risques de formation sur des données générées par l'IA. Enfin, nous nous tournons vers les modèles mondiaux interactifs et les VLM qui pourraient un jour "penser" et "raisonner" en images. Pour la liste complète des ressources de cet épisode, visitez la page des notes de l'émission : 📖 CHAPITRES =============================== 00:00 - Introduction 4:39 - Nano banana 5:35 - Nano banana vs Imagen et trajectoire des modèles de génération d'images 7:01 - Intégration de Nano banana dans Gemini 9:52 - Nano banana— un modèle à usage général 13:42 - Cohérence du modèle et capacités d'édition 15:41 - Qualité des données et architecture du modèle 18:13 - Cas d'utilisation 24:10 - Modèles one-shot vs interfaces basées sur des nœuds 28:33 - Affinage 30:32 - Tendances passionnantes dans la génération d'images et les VLM 32:40 - Surmonter les défis de la qualité du modèle 34:36 - Défis d'évaluation du modèle 36:32 - Avantages et inconvénients de Nano banana 38:58 - Réécriture de prompt 40:36 - Articles 41:52 - Accessibilité de la recherche 46:45 - Domaines vérifiables 49:49 - Tension entre exactitude et esthétique 52:50 - Distribution de données étroite dans la génération d'images 55:15 - Images générées par l'IA pour les données d'entraînement 57:56 - Échelle du modèle par rapport à la curation des données 58:55 - Maturité des domaines textuels par rapport aux domaines d'images