Un aspect de notre modèle Gemini 3 Pro à examiner est sa performance en matière de capacités multimodales. Nous avons travaillé pour qu'il fonctionne vraiment bien dans une variété de cas d'utilisation multimodaux, comme la compréhension de documents, de vidéos, de caractéristiques spatiales, de données biomédicales et d'écrans d'ordinateur, et être capable de raisonner sur des informations visuelles. Pour le tester, j'ai donné l'image originale du billet de blog ci-dessous et lui ai demandé : Veuillez créer une version de cette figure avec la colonne Gemini Pro annotée avec l'amélioration relative par rapport au meilleur résultat des trois autres colonnes en rouge. (Ce qui en soi est une tâche de raisonnement visuel assez difficile ! Il a plutôt bien réussi à le faire avec précision lors de quelques vérifications ponctuelles, et ces améliorations de précision relatives sont assez importantes dans certains des benchmarks !) Lisez plus ci-dessous ou dans le billet de blog à :