AMI Labs heeft net $1,03 miljard opgehaald. World Labs haalde een paar weken eerder $1 miljard op. Beide wedden op wereldmodellen. Maar bijna niemand bedoelt hetzelfde met die term. Hier zijn, naar mijn mening, vijf categorieën van wereldmodellen. --- 1. Joint Embedding Predictive Architecture (JEPA) Vertegenwoordigers: AMI Labs (@ylecun), V-JEPA 2 De centrale inzet hier is dat pixelreconstructie alleen een inefficiënt doel is voor het leren van de abstracties die nodig zijn voor fysiek begrip. LeCun zegt dit al jaren — het voorspellen van elke pixel van de toekomst is onuitvoerbaar in elke stochastische omgeving. JEPA omzeilt dit door te voorspellen in een geleerd latente ruimte in plaats van in pixelruimte. Concreet traint JEPA een encoder die videopatches naar representaties in kaart brengt, en vervolgens een voorspeller die gemaskeerde gebieden in die representatieruimte voorspelt — niet in pixelruimte. Dit is een cruciale ontwerpkeuze. Een generatief model dat pixels reconstrueert, is gedwongen zich te committeren aan laag-niveau details (exacte textuur, verlichting, positie van bladeren) die inherent onvoorspelbaar zijn. Door te opereren op abstracte embeddings kan JEPA "de bal zal van de tafel vallen" vastleggen zonder elke frame van het vallen te moeten hallucineren. V-JEPA 2 is tot nu toe het duidelijkste bewijs op grote schaal. Het is een model met 1,2 miljard parameters dat is voorgetraind op meer dan 1 miljoen uur video via zelfgestuurde gemaskeerde voorspelling — geen labels, geen tekst. De tweede trainingsfase is waar het interessant wordt: slechts 62 uur robotdata van de DROID-dataset is genoeg om een actie-geconditioneerd wereldmodel te produceren dat zero-shot planning ondersteunt. De robot genereert kandidaat-actiesequenties, rolt ze vooruit door het wereldmodel en kiest degene waarvan de voorspelde uitkomst het beste overeenkomt met een doelafbeelding. Dit werkt op objecten en omgevingen die nooit tijdens de training zijn gezien. De data-efficiëntie is het echte technische nieuws. 62 uur is bijna niets. Het suggereert dat zelfgestuurde voortraining op diverse video genoeg fysieke voorkennis kan opbouwen zodat er heel weinig domeinspecifieke data nodig is downstream. Dat is een sterk argument voor het JEPA-ontwerp — als je representaties goed genoeg zijn, heb je niet elke taak vanaf nul te brute-forcen. AMI Labs is LeCun's poging om dit verder te duwen dan onderzoek. Ze richten zich eerst op gezondheidszorg en robotica, wat logisch is gezien de kracht van JEPA in fysiek redeneren met beperkte data. Maar dit is een langetermijninzet — hun CEO heeft openlijk gezegd dat commerciële producten jaren weg kunnen zijn. --- 2. Ruimtelijke Intelligentie (3D Wereldmodellen) Vertegenwoordiger: World Labs (@drfeifei) ...