Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La comprensione di video lunghi mette in crisi la maggior parte dei LLM multimodali.
L'approccio predefinito per elaborare video di un'ora prevede di comprimere il contenuto in riassunti lossy o di ridurre drasticamente il campionamento dei fotogrammi.
Questo sposta il carico di ragionamento temporale a una fase iniziale e irreversibile. Le prove dettagliate vengono perse prima che il modello inizi a ragionare.
Ma cosa succederebbe se il modello potesse decidere attivamente cosa osservare, quando richiedere dettagli e quando ha raccolto abbastanza prove?
Questa nuova ricerca introduce LongVideoAgent, un framework multi-agente in cui un LLM master coordina agenti specializzati invece di codificare passivamente tutto in anticipo.
Il ragionamento agentico consente ai modelli di concentrarsi su clip rilevanti e raccogliere prove mirate piuttosto che sperare che le informazioni giuste sopravvivano alla compressione.
L'architettura ha tre componenti. Un agente master gestisce il ragionamento e decide quale azione intraprendere a ogni passo. Un agente di grounding localizza i segmenti rilevanti per le domande all'interno della timeline dell'episodio completo. Un agente visivo estrae osservazioni mirate da fotogrammi specifici all'interno di quei segmenti.
L'agente master opera per un massimo di K passi, emettendo esattamente un'azione strutturata per turno: richiedere grounding, interrogare per dettagli visivi o rispondere. L'output di ogni azione alimenta il contesto per la decisione successiva. Quando si accumulano prove sufficienti, il master produce una risposta finale.
Il RL insegna all'agente master quando esplorare e quando fermarsi. L'addestramento GRPO utilizza due semplici ricompense: validità strutturale per azioni ben formate e correttezza della risposta al termine. Questo obiettivo minimo guida il coordinamento strutturato multi-turno senza supervisione densa.
Su LongTVQA e LongTVQA+, i benchmark a livello di episodio aggregati da TVQA, l'approccio agentico supera costantemente le baseline non agentiche. GPT5-mini passa dal 62,4% al 71,1% con il framework multi-agente. Qwen2.5-3B migliora dal 23,5% al 47,4% dopo l'addestramento RL, quasi raddoppiando le prestazioni. Anche DeepSeek-R1-671B trae vantaggio dal design agentico.
Il grounding da solo supera la baseline non agentica con il 69,0% contro il 64,3%, e aggiungendo la visione si spinge l'accuratezza al 74,8%.
Carta:
Impara a costruire agenti AI efficaci nella nostra accademia:

Principali
Ranking
Preferiti
