Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uusi videon ymmärtämispaperi: Testaan tätä huomenna!
Pitkä videon ymmärrys on itsepäinen pullonkaula multimodaalisille LLM-malleille, useimmat lähestymistavat perustuvat voimakkaaseen puristukseen tai alasnäytteenottoon, menettäen peruuttamattomasti hienojakoiset ajalliset ja visuaaliset vihjeet ennen kuin järkeilyä edes alkaa.
Uusi artikkeli "LongVideoAgent: Multi-Agent Reasoning with Long Videos" käsittelee tätä suoraan moniagenttikehyksellä:
•Mestarillinen LLM järjestää suunnittelun rajattuissa vaiheissa (≤K), päättäen, milloin kerätään todisteita tai viimeistellään vastaus.
•Maadoitusagentti paikallistaa kysymykseen liittyvät segmentit tekstityksillä tehokkaan ajallisen haun takaamiseksi.
•Näköagentti poimii kohdennettuja tekstuaalisia havaintoja näiden segmenttien avainkehyksistä, täydentäen tekstityksiä tarkilla visuaalisilla yksityiskohdilla.
Tämä iteratiivinen, agenttinen prosessi välttää häviöllisen alkukoodauksen, mahdollistaen niukan mutta korkean tarkkuuden keräyksen.
Pääagenttia hiotaan edelleen vahvistusoppimisen (GRPO) avulla, jossa palkitaan rakenteellisen pätevyyden ja lopullisen oikeellisuuden, opettaen tehokasta monikierroskoordinaatiota.
Tulokset uusista jaksotason vertailuarvoista (LongTVQA ja LongTVQA+, koottu TVQA:sta):
•Agenttinen suunnittelu voittaa johdonmukaisesti ei-agenttilähtöiset.
•Maadoituksen + näön lisääminen tuottaa ~10 % absoluuttisia hyötyjä.
•RL parantaa avoimen lähdekoodin malleja dramaattisesti (esim. Qwen2.5-7B lähes kaksinkertaistaa suorituskyvyn).
Fiksu askel kohti skaalautuvaa, tulkittavaa pitkän kontekstin videopäättelyä.
Artikkeli:
Projekti:
#AI #Multimodal #Agents #LongVideoQA

Johtavat
Rankkaus
Suosikit
