Nouvel article sur la compréhension des vidéos : Test de cela demain ! La compréhension des longues vidéos reste un goulot d'étranglement tenace pour les LLM multimodaux, la plupart des approches s'appuyant sur une compression lourde ou un sous-échantillonnage, perdant de manière irréversible des indices temporels et visuels fins avant même que le raisonnement ne commence. Le nouvel article "LongVideoAgent : Raisonnement Multi-Agent avec de Longues Vidéos" s'attaque à ce problème de front avec un cadre multi-agent : •Un LLM maître orchestre la planification en étapes limitées (≤K), décidant quand rassembler des preuves ou finaliser la réponse. •Un agent de localisation localise les segments pertinents à la question en utilisant des sous-titres pour une recherche temporelle efficace. •Un agent de vision extrait des observations textuelles ciblées à partir des images clés dans ces segments, complétant les sous-titres avec des détails visuels précis. Ce processus itératif et agentique évite l'encodage initial avec perte, permettant une collecte de preuves éparse mais de haute fidélité. L'agent maître est en outre affiné via l'apprentissage par renforcement (GRPO) avec des récompenses pour la validité structurelle et la correction finale, enseignant une coordination efficace sur plusieurs tours. Résultats sur de nouveaux benchmarks au niveau des épisodes (LongTVQA et LongTVQA+, agrégés à partir de TVQA) : •Le design agentique bat systématiquement les bases non-agentes. •L'ajout de la localisation + de la vision entraîne des gains absolus d'environ 10%. •L'apprentissage par renforcement booste considérablement les modèles open-source (par exemple, Qwen2.5-7B double presque les performances). Un pas intelligent vers un raisonnement vidéo à long contexte évolutif et interprétable. Article : Projet : #AI #Multimodal #Agents #LongVideoQA