Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pitkä videon ymmärtäminen rikkoo useimmat multimodaaliset LLM:t.
Oletustapa tunnin mittaisten videoiden käsittelyyn on pakata sisältö häviöllisiksi yhteenvetoiksi tai aggressiivisesti alasampaa kehyksiä.
Tämä siirtää ajallisen ajattelun taakan varhaiseen, peruuttamattomaan vaiheeseen. Tarkat todisteet katoavat jo ennen kuin malli edes alkaa perustella.
Mutta entä jos malli voisi aktiivisesti päättää, mitä havainnoida, milloin kysyä yksityiskohtia ja milloin se on kerännyt tarpeeksi todisteita?
Tämä uusi tutkimus esittelee LongVideoAgentin, moniagenttikehyksen, jossa master-LLM koordinoi erikoistuneita agentteja sen sijaan, että koodaisi kaiken passiivisesti etukäteen.
Agenttinen päättely antaa malleille mahdollisuuden keskittyä relevantteihin pätkiin ja kerätä kohdennettua näyttöä sen sijaan, että toivoisivat oikean tiedon säilyvän pakkauksessa.
Arkkitehtuurissa on kolme osaa. Mestariagentti hoitaa päättelyn ja päättää, mitä toimenpiteitä tehdään kussakin vaiheessa. Maadoitusagentti lokalisoi kysymykseen liittyvät osuudet koko jakson aikajanalla. Näköagentti poimii kohdennettuja havaintoja tietyistä kehyksistä näissä segmenteissä.
Pääagentti juoksee jopa K askeleen verran, lähettäen täsmälleen yhden rakenteellisen toiminnon vuorossa: pyytää maadoittamista, kysyä visuaalisia yksityiskohtia tai vastata. Jokaisen toiminnon tulos siirtyy seuraavan päätöksen kontekstiin. Kun riittävästi todisteita kertyy, mestari antaa lopullisen vastauksen.
RL opettaa pääagentille, milloin tutkia ja milloin lopettaa. GRPO-koulutus käyttää kahta yksinkertaista palkintoa: rakenteellista pätevyyttä hyvin muodostetuille toimille ja vastauksen oikeellisuutta lopettaessa. Tämä minimaalinen tavoite ohjaa jäsenneltyä monikierroskoordinaatiota ilman tiheää valvontaa.
LongTVQA:ssa ja LongTVQA+:ssa, jotka on koottu TVQA:sta, agenttinen lähestymistapa päihittää johdonmukaisesti ei-agenttiset lähtötasot. GPT5-mini hyppää 62,4 %:sta 71,1 %:iin moniagenttikehyksen myötä. Qwen2.5-3B paranee 23,5 %:sta 47,4 %:iin RL-harjoittelun jälkeen, lähes kaksinkertaistaen suorituksen. Jopa DeepSeek-R1-671B hyötyy agenttisuunnittelusta.
Pelkkä maadoitus voittaa ei-aineettoman lähtötason 69,0 % verrattuna 64,3 %:iin, ja näön lisääminen nostaa tarkkuuden 74,8 %:iin.
Artikkeli:
Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme:

Johtavat
Rankkaus
Suosikit
