AMI Labs har nettopp hentet inn 1,03 milliarder dollar. World Labs samlet inn 1 milliard dollar noen uker tidligere. Begge satser på verdensmodeller. Men nesten ingen mener det samme med det uttrykket. Her er, etter min mening, fem kategorier av verdensmodeller. --- 1. Felles innstøpt prediktiv arkitektur (JEPA) Representanter: AMI Labs (@ylecun), V-JEPA 2 Det sentrale poenget her er at pikselrekonstruksjon alene er et ineffektivt mål for å lære abstraksjonene som trengs for fysisk forståelse. LeCun har sagt dette i årevis — å forutsi hver eneste piksel i fremtiden er uløselig i ethvert stokastisk miljø. JEPA omgår dette ved å forutsi i et lært latent rom i stedet. Konkret trener JEPA en koder som kartlegger videopatcher til representasjoner, deretter en prediktor som forutsier maskerte områder i det representasjonsrommet — ikke i pikselrommet. Dette er et avgjørende designvalg. En generativ modell som rekonstruerer piksler tvinges til å forplikte seg til lavnivådetaljer (eksakt tekstur, belysning, bladposisjon) som er iboende uforutsigbare. Ved å operere med abstrakte innleiringer kan JEPA fange «ballen vil falle av bordet» uten å måtte hallusinere hvert eneste bilde av fallet. V-JEPA 2 er det klareste storskala bevispunktet så langt. Det er en modell med 1,2 milliarder parametere forhåndstrent på 1 M+ timer video via selvovervåket maskert prediksjon — ingen etiketter, ingen tekst. Det er i det andre treningsstadiet det blir interessant: bare 62 timer med robotdata fra DROID-datasettet er nok til å produsere en handlingsbetinget verdensmodell som støtter nullskuddsplanlegging. Roboten genererer kandidat-aksjonssekvenser, ruller dem fremover gjennom verdensmodellen, og velger den hvis forventede utfall best matcher et målbilde. Dette fungerer på objekter og miljøer som aldri er sett under treningen. Dataeffektiviteten er den virkelige tekniske overskriften. 62 timer er nesten ingenting. Det antyder at selvsupervisert forhåndstrening på variert video kan gi nok fysisk forhåndskunnskap til at svært lite domenespesifikk data trengs senere. Det er et sterkt argument for JEPA-designet — hvis representasjonene dine er gode nok, trenger du ikke å brute force hver oppgave fra bunnen av. AMI Labs er LeCuns innsats for å flytte dette utover forskning. De retter seg først mot helsevesen og robotikk, noe som gir mening gitt JEPAs styrke innen fysisk resonnering med begrenset data. Men dette er et langsiktig veddemål — deres administrerende direktør har åpent sagt at kommersielle produkter kan være flere år unna. --- 2. Romlig intelligens (3D-verdensmodeller) Representant: World Labs (@drfeifei) ...