Mise à jour de ma vie : j'ai décidé de quitter 1X. Ce fut un honneur d'aider à faire grandir l'entreprise. J'ai rejoint Halodi Robotics en 2022 (ancien nom de l'entreprise) en tant que seul employé basé en Californie. À l'époque, nous étions environ 40 basés en Norvège et 2 au Texas. Mon premier recrutement et moi avons travaillé depuis mon garage pendant quelques mois pour économiser de l'argent. Aujourd'hui, 1X compte des centaines de personnes, avec le matériel, le design, le logiciel, l'IA, la fabrication, le produit tous relocalisés dans la région de la baie de San Francisco, fonctionnant à plein régime et travaillant à rendre NEO prêt pour la maison. Un grand merci à tous mes collègues avec qui j'ai travaillé. C'était une décision difficile à prendre. Lorsque l'on travaille dans une startup passionnante qui connaît une croissance rapide, il y a toujours tant à faire et jamais de moment parfait pour passer à autre chose. Nous avons plusieurs projets en cours qui sont si passionnants car ils font progresser considérablement l'autonomie générale et la scalabilité de notre approche de déploiement et montrent vraiment un chemin réaliste vers le bon fonctionnement du produit. La récente mise à jour de l'autonomie du World Model en est un exemple, et d'autres arrivent. L'usine 1X est tellement excitante. Les choses s'accélèrent à une vitesse que j'aurais été surpris de voir il y a quelques années. En 2022, la plupart des technologues, chercheurs et investisseurs étaient sceptiques à propos des humanoïdes et de l'apprentissage par imitation à grande échelle. "Pourquoi des jambes ?" "Comment l'apprentissage de bout en bout pourrait-il jamais être suffisamment bon ?" "Pourquoi viser la maison et pas l'usine ?" "Comment allons-nous jamais rassembler suffisamment de données ?" La fenêtre d'Overton sur la robotique à usage général a beaucoup changé depuis. Bien que nous soyons encore au début de notre mission, je reste convaincu que bientôt, les robots domestiques seront aussi courants que les climatiseurs, les voitures et ChatGPT. Il suffit de parler au bot, et il ira et fera discrètement le travail. Des économies entières finiront par se réorganiser autour de cette technologie. Les gens comprennent maintenant. Quelle est la suite ? Je crois que le progrès dans l'apprentissage profond appliqué repose généralement sur "exploiter la magie" de quelques objets magiques. Ces objets magiques possèdent beaucoup plus de pouvoir de généralisation que l'on pourrait normalement s'y attendre. Demander simplement au LLM de comprendre ce que vous voulez, c'est de la magie. Les modèles de génération vidéo sont de la magie. Le raisonnement est de la magie. Vous ne tombez pas sur un objet magique tous les jours, mais quand vous le faites, vous vous assurez de le saisir et de le mettre au travail pour créer quelque chose d'utile dans le robot d'une manière ou d'une autre. Une grande partie de ma conviction initiale sur la direction que prenait la robotique provenait du travail sur BC-Z de 2018 à 2021. L'"objet magique" sur lequel j'ai parié à l'époque était les capacités d'absorption de données surprenantes de l'apprentissage supervisé et "demander simplement la généralisation". Cela a ouvert la voie à de nombreux ingrédients standards que nous voyons aujourd'hui dans les VLA : - Généralisation aux commandes linguistiques non vues - DAgger guidé par l'humain pour l'amélioration des politiques - Prédictions auxiliaires en boucle ouverte + contrôle à horizon décroissant, AKA découpage d'actions - Points clés de manipulation pour améliorer le servoing - Simple ResNet18 avec conditionnement FiLM sur des entrées multimodales Le prochain "objet magique" sur lequel nous avons parié chez 1X était les modèles vidéo, car ce sont clairement des objets magiques qui apprennent une distribution de données pas trop différente de ce qu'un robot doit apprendre. Ils se généralisent de manière surprenante. Je ressens à nouveau qu'il y a plus d'objets magiques en jeu maintenant, ce qui ouvre de nombreuses nouvelles possibilités pour la robotique et au-delà. Je prends quelques mois pour vider ma tasse de préjugés et acquérir une nouvelle perspective. Lorsque j'ai quitté Google en 2022, j'ai passé environ 2 semaines à décider quoi faire ensuite. Cette fois, je veux prendre beaucoup plus de temps pour rattraper ce qui s'est passé dans le domaine plus large de l'IA + de la robotique. J'ai réimplémenté certains articles sur l'apprentissage profond. Je travaille sur un grand tutoriel pour mon blog. J'apprends tous les trucs de power user de Claude. Je lis les articles de blog de Thinking Machines pour comprendre quels types d'expériences sont menées dans les laboratoires de pointe. Je lis la thèse de Ben Katz de 2016 sur l'actionneur Mini-cheetah. Je voyage en Chine en mars pour rencontrer des entreprises incroyables dans l'écosystème robotique chinois. Maintenant, plus que jamais, c'est le moment pour les humains et les machines d'apprendre. Le prochain jeton de ma séquence de vie sera un moment important. À mes collègues et investisseurs qui ont parié sur 1X tôt, même avant que nous ne devenions un nom connu - je vous remercie du fond du cœur. Je ne l'oublierai pas♥️