Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AMI Labs tocmai a strâns 1,03 miliarde de dolari. World Labs a strâns 1 miliard de dolari cu câteva săptămâni înainte. Amândoi pariază pe modele mondiale.
Dar aproape nimeni nu vrea să spună același lucru prin acest termen.
Iată, în opinia mea, cinci categorii de modele mondiale.
---
1. Arhitectura predictivă a Joint Embedding (JEPA)
Reprezentanți: AMI Labs (@ylecun), V-JEPA 2
Pariul central aici este că reconstrucția pixelilor singură este un obiectiv ineficient pentru a învăța abstracțiile necesare înțelegerii fizice. LeCun spune asta de ani de zile — prezicerea fiecărui pixel al viitorului este de nerezolvat în orice mediu stocastic. JEPA evită acest lucru prezicând în schimb un spațiu latent învățat.
Concret, JEPA antrenează un encoder care mapează patch-urile video la reprezentări, apoi un predictor care prognozează regiunile mascate în acel spațiu de reprezentare — nu în spațiul pixelilor.
Aceasta este o alegere de design crucială.
Un model generativ care reconstruiește pixelii este forțat să se angajeze la detalii de nivel scăzut (textură exactă, iluminare, poziția frunzei) care sunt inerent imprevizibile. Operând pe încorporații abstracte, JEPA poate surprinde "mingea va cădea de pe masă" fără să fie nevoie să halucineze fiecare cadru în care cade.
V-JEPA 2 este cel mai clar punct de probă la scară largă de până acum. Este un model cu 1,2B parametri, pre-antrenat pe 1M+ ore de video prin predicție mascată auto-supravegheată — fără etichete, fără text. A doua etapă de antrenament devine interesantă: doar 62 de ore de date despre roboți din setul de date DROID sunt suficiente pentru a produce un model de lume condiționat de acțiune care susține planificarea zero-shot. Robotul generează secvențe de acțiuni candidate, le rulează înainte prin modelul lumii și alege pe cea al cărei rezultat prezis corespunde cel mai bine unei imagini țintă. Acest lucru funcționează pe obiecte și medii care nu au fost niciodată văzute în timpul antrenamentului.
Eficiența datelor este adevăratul titlu tehnic. 62 de ore înseamnă aproape nimic. Aceasta sugerează că pre-instruirea auto-supravegheată pe diverse videoclipuri poate genera suficiente cunoștințe fizice anterioare încât foarte puține date specifice domeniului să fie necesare ulterior. Acesta este un argument puternic pentru designul JEPA — dacă reprezentările tale sunt suficient de bune, nu trebuie să forțezi fiecare sarcină de la zero.
AMI Labs reprezintă efortul LeCun de a împinge acest lucru dincolo de cercetare. Ei vizează mai întâi sănătatea și robotica, ceea ce are sens având în vedere forța JEPA în raționamentul fizic cu date limitate. Dar acesta este un pariu pe termen lung — CEO-ul lor a spus deschis că produsele comerciale ar putea fi la ani distanță.
---
2. Inteligență spațială (modele 3D ale lumii)
Reprezentant: World Labs (@drfeifei)
...
Limită superioară
Clasament
Favorite
