Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuovo documento sulla comprensione dei video: Testando questo domani!
La comprensione dei video lunghi rimane un collo di bottiglia ostinato per i LLM multimodali; la maggior parte degli approcci si basa su una pesante compressione o riduzione della risoluzione, perdendo in modo irreversibile indizi temporali e visivi dettagliati prima che il ragionamento inizi.
Il nuovo documento “LongVideoAgent: Multi-Agent Reasoning with Long Videos” affronta questo problema con un framework multi-agente:
•Un LLM master orchestra la pianificazione in passi limitati (≤K), decidendo quando raccogliere prove o finalizzare la risposta.
•Un agente di localizzazione localizza segmenti rilevanti per la domanda utilizzando i sottotitoli per una ricerca temporale efficiente.
•Un agente visivo estrae osservazioni testuali mirate da fotogrammi chiave in quei segmenti, integrando i sottotitoli con dettagli visivi precisi.
Questo processo iterativo e agentico evita la codifica iniziale con perdita, consentendo una raccolta di prove scarsa ma ad alta fedeltà.
L'agente master è ulteriormente affinato tramite apprendimento per rinforzo (GRPO) con ricompense per validità strutturale e correttezza finale, insegnando una coordinazione multi-turno efficiente.
Risultati su nuovi benchmark a livello di episodio (LongTVQA e LongTVQA+, aggregati da TVQA):
•Il design agentico supera costantemente le baseline non agentiche.
•Aggiungere localizzazione + visione produce guadagni assoluti di ~10%.
•L'RL aumenta drammaticamente le prestazioni dei modelli open-source (ad es., Qwen2.5-7B quasi raddoppia le prestazioni).
Un passo intelligente verso un ragionamento video a lungo termine scalabile e interpretabile.
Documento:
Progetto:
#AI #Multimodal #Agents #LongVideoQA

Principali
Ranking
Preferiti
