La compréhension des vidéos longues casse la plupart des LLM multimodaux. L'approche par défaut pour traiter des vidéos d'une heure consiste à compresser le contenu en résumés avec perte ou à réduire agressivement le nombre d'images. Cela déplace le fardeau du raisonnement temporel à une étape précoce et irréversible. Les preuves fines se perdent avant même que le modèle ne commence à raisonner. Mais que se passerait-il si le modèle pouvait décider activement quoi observer, quand interroger pour des détails, et quand il a rassemblé suffisamment de preuves ? Cette nouvelle recherche introduit LongVideoAgent, un cadre multi-agent où un LLM maître coordonne des agents spécialisés au lieu d'encoder passivement tout à l'avance. Le raisonnement agentique permet aux modèles de se concentrer sur des clips pertinents et de rassembler des preuves ciblées plutôt que d'espérer que les bonnes informations survivent à la compression. L'architecture a trois composants. Un agent maître gère le raisonnement et décide quelle action entreprendre à chaque étape. Un agent de localisation localise les segments pertinents à la question dans la chronologie complète de l'épisode. Un agent de vision extrait des observations ciblées à partir d'images spécifiques dans ces segments. L'agent maître fonctionne pendant jusqu'à K étapes, émettant exactement une action structurée par tour : demander une localisation, interroger pour des détails visuels ou répondre. La sortie de chaque action alimente le contexte pour la décision suivante. Lorsque suffisamment de preuves s'accumulent, le maître produit une réponse finale. L'apprentissage par renforcement enseigne à l'agent maître quand explorer et quand s'arrêter. L'entraînement GRPO utilise deux récompenses simples : la validité structurelle pour des actions bien formées et la justesse de la réponse à la terminaison. Cet objectif minimal guide la coordination structurée multi-tours sans supervision dense. Sur LongTVQA et LongTVQA+, les benchmarks au niveau des épisodes agrégés à partir de TVQA, l'approche agentique surpasse systématiquement les bases non agentiques. GPT5-mini passe de 62,4 % à 71,1 % avec le cadre multi-agent. Qwen2.5-3B s'améliore de 23,5 % à 47,4 % après l'entraînement par renforcement, doublant presque ses performances. Même DeepSeek-R1-671B bénéficie de la conception agentique. La localisation seule bat la base non agentique à 69,0 % contre 64,3 %, et l'ajout de la vision pousse la précision à 74,8 %. Article : Apprenez à construire des agents IA efficaces dans notre académie :