AMI Labs keräsi juuri 1,03 miljardia dollaria. World Labs keräsi muutamaa viikkoa aiemmin 1 miljardia dollaria. Molemmat lyövät vetoa maailmanmalleihin. Mutta lähes kukaan ei tarkoita samaa sillä termillä. Tässä on mielestäni viisi maailmanmallien kategoriaa. --- 1. Yhteisen upotuksen ennustava arkkitehtuuri (JEPA) Edustajat: AMI Labs (@ylecun), V-JEPA 2 Keskeinen veto on, että pelkkä pikselin rekonstruktio on tehoton tavoite fysiikan ymmärtämiseen tarvittavien abstraktioiden oppimisessa. LeCun on sanonut tätä jo vuosia — jokaisen tulevaisuuden pikselin ennustaminen on mahdotonta missä tahansa stokastisessa ympäristössä. JEPA kiertää tämän ennustamalla sen sijaan opitulla latenttitilalla. Tarkemmin sanottuna JEPA kouluttaa kooderin, joka kartoittaa videopatchit esityksiin, ja sitten ennustajan, joka ennustaa naamioituja alueita kyseisessä esitystilassa — ei pikselitilassa. Tämä on ratkaiseva suunnitteluratkaisu. Generatiivinen malli, joka rekonstruoi pikseleitä, joutuu sitoutumaan matalan tason yksityiskohtiin (tarkka tekstuuri, valaistus, lehtien sijainti), jotka ovat luonteeltaan arvaamattomia. Toimimalla abstrakteilla upotuksilla JEPA voi tallentaa "pallo putoaa pöydältä" ilman, että hänen tarvitsee hallusinoida jokaista kaatuvan ruudun kaatumista. V-JEPA 2 on tähän mennessä selkein laajamittainen todistuspiste. Se on 1,2B-parametrin malli, joka on esikoulutettu 1M+-tunnilla videota itseohjatun maskatun ennusteen avulla — ei tunnisteita, ei tekstiä. Toinen koulutusvaihe muuttuu mielenkiintoiseksi: pelkkä 62 tuntia robottidataa DROID-aineistosta riittää tuottamaan toimintaehdollisen maailmanmallin, joka tukee nollalaukauksen suunnittelua. Robotti luo ehdokastoimintajaksoja, pyörittää niitä eteenpäin maailmamallissa ja valitsee sen, jonka ennustettu lopputulos vastaa parhaiten tavoitekuvaa. Tämä toimii esineissä ja ympäristöissä, joita ei koskaan nähty koulutuksen aikana. Datatehokkuus on todellinen tekninen otsikko. 62 tuntia ei ole juuri mitään. Se viittaa siihen, että itseohjattu esikoulutus monipuolisilla videoilla voi käynnistää riittävästi fyysistä ennakkotietoa, jotta alakohtaista dataa tarvitaan hyvin vähän myöhemmin. Se on vahva argumentti JEPA-suunnittelulle — jos esityksesi ovat tarpeeksi hyviä, sinun ei tarvitse tehdä jokaista tehtävää alusta alkaen. AMI Labs on LeCunin yritys työntää tämä tutkimuksen ulkopuolelle. He tähtäävät ensisijaisesti terveydenhuoltoon ja robotiikkaan, mikä on järkevää, kun ottaa huomioon JEPA:n vahvuuden fyysisessä päättelyssä rajallisella datalla. Mutta tämä on pitkän aikavälin veto — heidän toimitusjohtajansa on avoimesti sanonut, että kaupalliset tuotteet voivat olla vielä vuosien päässä. --- 2. Avaruusälykkyys (3D-maailmanmallit) Edustaja: World Labs (@drfeifei) ...