Uutta tutkimusta Metalta ja yhteistyökumppaneilta. Tämä on hyvä artikkeli, joka osoittaa, mitä on mahdollista oikeilla maailmanmalleilla. Maailmanmallit tarvitsevat toimia seurausten ennustamiseksi. Nykyinen oletuslähestymistapa vaatii merkittyä toimintadataa, jonka hankkiminen on kallista ja rajoittuu kapeisiin alueisiin, kuten videopeleihin tai robottimanipulointiin. Mutta valtaosassa verkossa olevaa videodataa ei ole lainkaan toimintatunnisteita. Tämä uusi tutkimus käsittelee piilevien toimintamaailman mallien oppimista suoraan luonnossa olevista videoista, laajentaen aiempien tutkimusten kontrolloitujen ympäristöjen ulkopuolelle ja vangitakseen koko todellisten toimintojen monimuotoisuuden. Haaste on merkittävä. Villissä luonnossa esiintyvät videot sisältävät toimintoja, jotka ovat paljon pelkkää navigointia tai manipulointia pidemmälle: ihmiset astuvat ruutuihin, esineet ilmestyvät ja katoavat, tanssijat liikkuvat, sormet muodostavat kitarasointuja. Videoissa ei myöskään ole yhtenäistä ilmentymistä, toisin kuin robotiikkaaineistoissa, joissa sama käsivarsi esiintyy läpi. Miten kirjoittajat sitten käsittelevät tätä? Jatkuvat mutta rajoitetut piilevät toiminnot, joissa käytetään harvaa tai kohinaista säännöllistystä, vangitsevat tehokkaasti tämän toiminnan monimutkaisuuden. Diskreetti kvantisointi, yleinen lähestymistapa aiemmissa töissä, kamppailee sopeutuakseen. Ilman yhteistä ilmentymää malli oppii tilallisesti paikallistettuja, kameraan liittyviä muunnoksia. Tulokset osoittavat aitoa toiminnan siirtoa. Kävelevän ihmisen liike voidaan soveltaa lentävään palloon. Toiminnot kuten "joku astuu kuvaan" siirtyvät täysin eri videoiden välillä. Kouluttamalla pienen ohjaimen kartoittamaan tunnetut toiminnot piileviin toimintoihin, pelkästään luonnollisilla videoilla koulutettu maailmanmalli voi ratkaista robottien manipulointi- ja navigointitehtäviä suorituskyvyllä, joka on lähellä mallien tasoa, joka on koulutettu toimialakohtaisella, toiminta-merkityllä datalla. Merkitsemättömistä internet-videoista opitut piilevät toimintatilat voivat toimia universaalina suunnittelurajapintana, poistaen toimintamerkinnän pullonkaulan. Artikkeli: Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme: