Ny forskning fra Meta og samarbeidspartnere. Dette er en god artikkel som viser hva som er mulig med ordentlige verdensmodeller. Verdensmodeller trenger handlinger for å forutsi konsekvenser. Standardtilnærmingen i dag krever merket handlingsdata, som er kostbart å skaffe og begrenset til smale domener som videospill eller robotmanipulering. Men det store flertallet av videodata på nettet har ingen handlingsetiketter i det hele tatt. Denne nye forskningen tar for seg læring av latente handlingsverdenmodeller direkte fra videoer i naturen, og utvider utover de kontrollerte settingene i tidligere arbeid for å fange hele mangfoldet av virkelige handlinger. Utfordringen er betydelig. Videoer i naturen inneholder handlinger langt utover enkel navigasjon eller manipulering: folk som går inn i rammer, objekter som dukker opp og forsvinner, dansere som beveger seg, fingre som danner gitarakkorder. Det finnes heller ingen konsistent kroppsliggjøring på tvers av videoer, i motsetning til robotdatasett, hvor den samme armen vises gjennom hele videoen. Så hvordan håndterer forfatterne dette? Kontinuerlige, men begrensede latente handlinger, ved bruk av sparsom eller støyende regularisering, fanger effektivt denne handlingskompleksiteten. Diskret kvantisering, den vanlige tilnærmingen i tidligere arbeid, sliter med å tilpasse seg. Uten en delt legemliggjøring lærer modellen romlig lokaliserte, kamera-relative transformasjoner. Resultatene viser ekte handlingsoverføring. Bevegelse fra en gående person kan brukes på en flygende ball. Handlinger som «noen som går inn i bildet» overføres til helt forskjellige videoer. Ved å trene en liten kontroller til å kartlegge kjente handlinger til latente, kan verdensmodellen trent utelukkende på naturlige videoer løse robotiske manipulasjons- og navigasjonsoppgaver med ytelse nær modeller trent på domenespesifikke, handlingsmerkede data. Latente handlingsrom lært fra umerkede internettvideoer kan fungere som et universelt grensesnitt for planlegging, og fjerne flaskehalsen ved handlingsannotering. Artikkel: Lær å bygge effektive AI-agenter i vår akademi: