Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aujourd'hui, nous sommes rejoints par @oliver_wang2, scientifique principal chez @GoogleDeepMind et responsable technique de Gemini 2.5 Flash Image—mieux connu sous son nom de code, "Nano Banana". Nous plongeons dans le développement et les capacités de ce modèle de vision-langage de pointe récemment publié, en commençant par le changement plus large des générateurs d'images spécialisés vers des agents multimodaux à usage général qui peuvent utiliser à la fois des données visuelles et textuelles pour une variété de tâches. Oliver explique comment Nano Banana peut générer et éditer des images de manière itérative tout en maintenant la cohérence, et comment son intégration avec les connaissances mondiales de Gemini élargit les cas d'utilisation créatifs et pratiques. Nous discutons de la tension entre l'esthétique et l'exactitude, de la maturité relative des modèles d'images par rapport aux LLM basés sur le texte, et de l'échelle comme moteur de progrès. Oliver partage également des comportements émergents surprenants, les défis de l'évaluation des modèles de vision-langage, et les risques de formation sur des données générées par l'IA. Enfin, nous nous tournons vers les modèles mondiaux interactifs et les VLM qui pourraient un jour "penser" et "raisonner" en images.
Pour la liste complète des ressources de cet épisode, visitez la page des notes de l'émission :
📖 CHAPITRES
===============================
00:00 - Introduction
4:39 - Nano banana
5:35 - Nano banana vs Imagen et trajectoire des modèles de génération d'images
7:01 - Intégration de Nano banana dans Gemini
9:52 - Nano banana— un modèle à usage général
13:42 - Cohérence du modèle et capacités d'édition
15:41 - Qualité des données et architecture du modèle
18:13 - Cas d'utilisation
24:10 - Modèles one-shot vs interfaces basées sur des nœuds
28:33 - Affinage
30:32 - Tendances passionnantes dans la génération d'images et les VLM
32:40 - Surmonter les défis de la qualité du modèle
34:36 - Défis d'évaluation du modèle
36:32 - Avantages et inconvénients de Nano banana
38:58 - Réécriture de prompt
40:36 - Articles
41:52 - Accessibilité de la recherche
46:45 - Domaines vérifiables
49:49 - Tension entre exactitude et esthétique
52:50 - Distribution de données étroite dans la génération d'images
55:15 - Images générées par l'IA pour les données d'entraînement
57:56 - Échelle du modèle par rapport à la curation des données
58:55 - Maturité des domaines textuels par rapport aux domaines d'images
Meilleurs
Classement
Favoris
