DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

AMI Labs vient de lever 1,03 milliard de dollars. World Labs a levé 1 milliard de dollars quelques semaines plus tôt. Les deux parient sur des modèles mondiaux. Mais presque personne ne signifie la même chose par ce terme. Voici, à mon avis, cinq catégories de modèles mondiaux. --- 1. Architecture Prédictive d'Emballage Commun (JEPA) Représentants : AMI Labs (@ylecun), V-JEPA 2 Le pari central ici est que la reconstruction de pixels seule est un objectif inefficace pour apprendre les abstractions nécessaires à la compréhension physique. LeCun le dit depuis des années : prédire chaque pixel du futur est ingérable dans n'importe quel environnement stochastique. JEPA contourne cela en prédisant dans un espace latent appris à la place. Concrètement, JEPA entraîne un encodeur qui mappe des morceaux de vidéo à des représentations, puis un prédicteur qui prévoit des régions masquées dans cet espace de représentation — pas dans l'espace pixel. C'est un choix de conception crucial. Un modèle génératif qui reconstruit des pixels est contraint de s'engager sur des détails de bas niveau (texture exacte, éclairage, position des feuilles) qui sont intrinsèquement imprévisibles. En opérant sur des embeddings abstraits, JEPA peut capturer "la balle va tomber de la table" sans avoir à halluciner chaque image de sa chute. V-JEPA 2 est le point de preuve à grande échelle le plus clair jusqu'à présent. C'est un modèle de 1,2 milliard de paramètres pré-entraîné sur plus de 1 million d'heures de vidéo via une prédiction masquée auto-supervisée — pas d'étiquettes, pas de texte. La deuxième étape d'entraînement est là où cela devient intéressant : juste 62 heures de données robotiques du jeu de données DROID suffisent à produire un modèle mondial conditionné par l'action qui supporte la planification zéro-shot. Le robot génère des séquences d'actions candidates, les fait avancer à travers le modèle mondial, et choisit celle dont le résultat prédit correspond le mieux à une image cible. Cela fonctionne sur des objets et des environnements jamais vus pendant l'entraînement. L'efficacité des données est le véritable titre technique. 62 heures, c'est presque rien. Cela suggère que le pré-entraînement auto-supervisé sur des vidéos diverses peut initier suffisamment de connaissances physiques antérieures pour que très peu de données spécifiques au domaine soient nécessaires en aval. C'est un argument fort pour la conception de JEPA — si vos représentations sont suffisamment bonnes, vous n'avez pas besoin de forcer chaque tâche depuis le début. AMI Labs est l'effort de LeCun pour pousser cela au-delà de la recherche. Ils ciblent d'abord la santé et la robotique, ce qui a du sens compte tenu de la force de JEPA dans le raisonnement physique avec des données limitées. Mais c'est un pari à long terme — leur PDG a ouvertement déclaré que les produits commerciaux pourraient être à des années. --- 2. Intelligence Spatiale (Modèles Mondiaux 3D) Représentant : World Labs (@drfeifei) ...

Meilleurs

Classement

Favoris