Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AMI Labs har precis samlat in 1,03 miljarder dollar. World Labs samlade in 1 miljard dollar några veckor tidigare. Båda satsar på världsmodeller.
Men nästan ingen menar samma sak med det ordet.
Här är, enligt min mening, fem kategorier av världsmodeller.
---
1. Gemensam inbäddningsprediktiv arkitektur (JEPA)
Representanter: AMI Labs (@ylecun), V-JEPA 2
Den centrala satsningen här är att pixelrekonstruktion ensam är ett ineffektivt mål för att lära sig de abstraktioner som krävs för fysisk förståelse. LeCun har sagt detta i åratal — att förutsäga varje pixel i framtiden är olöslig i vilken stokastisk miljö som helst. JEPA undviker detta genom att förutsäga i ett inlärt latent rum istället.
Konkret tränar JEPA en kodare som mappar videopatchar till representationer, sedan en prediktor som förutspår maskerade regioner i det representationsutrymmet – inte i pixelutrymmet.
Detta är ett avgörande designval.
En generativ modell som rekonstruerar pixlar tvingas binda sig till lågnivådetaljer (exakt textur, belysning, lövposition) som är i grunden oförutsägbara. Genom att arbeta med abstrakta inbäddningar kan JEPA fånga "bollen kommer att falla av bordet" utan att behöva hallucinera varje bildruta av att den faller.
V-JEPA 2 är den tydligaste storskaliga bevispunkten hittills. Det är en 1,2 miljarder parametermodell som är förtränad på 1 M+ timmars video via självövervakad maskerad prediktion — inga etiketter, ingen text. Det är i det andra träningssteget blir det intressant: bara 62 timmars robotdata från DROID-datasetet räcker för att producera en action-betingad världsmodell som stödjer nollskottsplanering. Roboten genererar kandidatsekvenser, rullar dem framåt genom världsmodellen och väljer den vars förutsagda utfall bäst matchar en målbild. Detta fungerar på objekt och miljöer som aldrig setts under träningen.
Dataeffektiviteten är den verkliga tekniska rubriken. 62 timmar är nästan ingenting. Det antyder att självövervakad förträning på varierad video kan skapa tillräcklig fysisk förkunskap så att mycket lite domänspecifik data behövs längre fram. Det är ett starkt argument för JEPA:s design – om dina representationer är tillräckligt bra behöver du inte brute-forcea varje uppgift från grunden.
AMI Labs är LeCuns försök att driva detta bortom forskning. De siktar på sjukvård och robotik först, vilket är logiskt med tanke på JEPAs styrka i fysiskt resonemang med begränsad data. Men detta är en långsiktig satsning — deras VD har öppet sagt att kommersiella produkter kan vara flera år bort.
---
2. Rumslig intelligens (3D-världsmodeller)
Representant: World Labs (@drfeifei)
...
Topp
Rankning
Favoriter
