Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ny forskning från Meta och samarbetspartners.
Det här är en bra artikel som visar vad som är möjligt med riktiga världsmodeller.
Världsmodeller behöver åtgärder för att förutsäga konsekvenser. Standardmetoden idag kräver märkta handlingsdata, vilket är dyrt att få tag på och begränsat till smala områden som videospel eller robotmanipulation.
Men den stora majoriteten av videodata online har inga handlingsetiketter alls.
Denna nya forskning tar sig an att lära sig latenta actionvärldsmodeller direkt från vilda videor, och utvidgar bortom de kontrollerade miljöerna i tidigare arbete för att fånga hela mångfalden av verkliga handlingar.
Utmaningen är betydande. Vildmarksvideor innehåller handlingar långt bortom enkel navigering eller manipulation: människor som går in i bildrutor, objekt som dyker upp och försvinner, dansare som rör sig, fingrar som formar gitarrackord. Det finns heller ingen konsekvent förkroppsligande i videor, till skillnad från robotdataset där samma arm förekommer genom hela videon.
Så hur hanterar författarna detta?
Kontinuerliga men begränsade latenta handlingar, med hjälp av gles eller brusig regularisering, fångar effektivt denna handlingskomplexitet. Diskret kvantisering, den vanliga metoden i tidigare arbete, har svårt att anpassa sig. Utan en gemensam förkroppsligning lär sig modellen rumsligt lokaliserade, kamerarelativa transformationer.
Resultaten visar på verklig handlingsöverföring.
Rörelse från en gående person kan appliceras på en flygande boll. Handlingar som "någon som går in i bildrutan" överförs till helt olika videor.
Genom att träna en liten kontroller att mappa kända handlingar till latenta sådana kan världsmodellen som tränas enbart på naturliga videor lösa robotmanipulation och navigationsuppgifter med prestanda nära modeller tränade på domänspecifika, åtgärdsmärkta data.
Latenta handlingsutrymmen som lärs ut från oetiketterade internetvideor kan fungera som ett universellt gränssnitt för planering och ta bort flaskhalsen i handlingsannotering.
Papper:
Lär dig att bygga effektiva AI-agenter i vår akademi:

Topp
Rankning
Favoriter
