Demis Hassabis sur les 12 prochains mois : - Convergence multimodale complète : Des modèles comme Gemini intégreront et produiront sans effort du texte, des images, de l'audio et de la vidéo, avec une pollinisation croisée qui renforce le raisonnement + la créativité. - Percée en intelligence visuelle : Des modèles d'image comme Nano Banana Pro produiront des infographies très précises et montreront une compréhension visuelle proche de celle des humains. - Fusion langage + vidéo : Les modèles vidéo intégrés avec des LLM débloquent une analyse plus riche, une narration et un raisonnement visuel étape par étape. - Les modèles du monde deviennent courants comme Genie 3 - Les agents deviennent fiables