DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

OpenAI vient de confirmer ma thèse d’étoile polaire pour l’IA aujourd’hui en publiant leur agent opérateur. Ce n’était pas seulement ma thèse directrice pour $CODEC, mais aussi pour tous les autres investissements que j’ai faits, y compris ceux du début de l’année pendant la manie de l’IA. Il y a eu beaucoup de discussions avec Codec en ce qui concerne la robotique, bien que cette verticale ait très bientôt son propre récit, la raison sous-jacente pour laquelle j’étais si optimiste sur Codec dès le premier jour est due à la façon dont son architecture alimente les agents opérateurs. Les gens sous-estiment encore la part de marché en jeu en créant des logiciels qui fonctionnent de manière autonome, surpassant les travailleurs humains sans avoir besoin d’invites ou de surveillance constantes. J’ai vu beaucoup de comparaisons avec $NUIT. Tout d’abord, je tiens à dire que je suis un grand fan de ce que Nuit est en train de construire et que je ne souhaite rien d’autre que leur succès. Si vous tapez « nuit » dans mon télégramme, vous verrez qu’en avril dernier, j’ai dit que si j’avais dû conserver une pièce pendant plusieurs mois, cela aurait été nuit en raison de ma thèse d’opérateur. Nuit était le projet d’opérateur le plus prometteur sur le papier, mais après des recherches approfondies, j’ai constaté que leur architecture manquait de profondeur pour justifier un investissement majeur ou d’y mettre ma réputation. Dans cet esprit, j’étais déjà conscient des lacunes architecturales des équipes d’agents d’opérateurs existantes et je recherchais activement un projet qui les comblait. Peu de temps après, Codec est apparu (grâce à @0xdetweiler insistant pour que je les examine de plus près) et voici la différence entre les deux : $CODEC contre $NUIT L’architecture du codec est construite sur trois couches ; Machine, système et intelligence, qui séparent l’infrastructure, l’interface d’environnement et la logique de l’IA. Chaque agent d’opérateur dans Codec s’exécute dans sa propre machine virtuelle ou conteneur isolé, ce qui permet des performances quasi natives et une isolation des pannes. Cette conception en couches signifie que les composants peuvent évoluer ou évoluer indépendamment sans casser le système. L’architecture de Nuit prend un chemin différent en étant plus monolithique. Leur pile tourne autour d’un agent de navigateur Web spécialisé qui combine l’analyse, le raisonnement de l’IA et l’action. Cela signifie qu’ils analysent en profondeur les pages Web en données structurées pour que l’IA les consomme et s’appuient sur le traitement dans le cloud pour les tâches lourdes de l’IA. L’approche du codec, qui consiste à intégrer un modèle léger de vision-langage-action (VLA) au sein de chaque agent, signifie qu’il peut s’exécuter entièrement localement. Ce qui ne nécessite pas de revenir constamment au cloud pour obtenir des instructions, ce qui permet de réduire la latence et d’éviter la dépendance à l’égard du temps de fonctionnement et de la bande passante. L’agent de Nuit traite les tâches en convertissant d’abord les pages Web dans un format sémantique, puis en utilisant un cerveau LLM pour déterminer ce qu’il faut faire, ce qui s’améliore au fil du temps grâce à l’apprentissage par renforcement. Bien qu’efficace pour l’automatisation Web, ce flux dépend d’un traitement intensif de l’IA côté cloud et de structures de page prédéfinies. L’intelligence locale du codec permet de prendre des décisions plus près des données, ce qui réduit la surcharge et rend le système plus stable face aux changements inattendus (pas de scripts fragiles ou d’hypothèses DOM). Les opérateurs du codec suivent une boucle continue percevoir-penser-agir. La couche machine transmet l’environnement (par exemple, une application en direct ou un flux de robot) à la couche intelligente via les canaux optimisés de la couche système, donnant à l’IA des « yeux » sur l’état actuel. Le modèle VLA de l’agent interprète ensuite les visuels et les instructions ensemble pour décider d’une action, que la couche système exécute par le biais d’événements clavier/souris ou du contrôle du robot. Cette boucle intégrée signifie qu’il s’adapte aux événements en direct, même si l’interface utilisateur se déplace, vous ne briserez pas le flux. Pour mettre tout cela dans une analogie plus simple, pensez aux opérateurs de Codec comme un employé autonome qui s’adapte aux surprises au travail. L’agent de Nuit est comme un employé qui a besoin de faire une pause, de décrire la situation à un superviseur au téléphone et d’attendre des instructions. Sans tomber dans un terrier de lapin trop technique, cela devrait vous donner une idée de haut niveau de la raison pour laquelle j’ai choisi Codec comme principal pari sur les opérateurs. Oui, Nuit a le soutien de YC, d’une équipe empilée et de github de niveau S. Bien que l’architecture du codec ait été conçue avec une mise à l’échelle horizontale à l’esprit, ce qui signifie que vous pouvez déployer des milliers d’agents en parallèle sans mémoire partagée ni contexte d’exécution entre les agents. L’équipe de Codec n’est pas non plus composée de développeurs ordinaires. Leur architecture VLA ouvre une multitude de cas d’utilisation, ce qui n’était pas possible avec les modèles d’agents précédents, car ils voyaient à travers les pixels et non les captures d’écran. Je pourrais continuer, mais je garderai cela pour de futurs articles.

Environnements virtuels pour les agents opérateurs : $CODEC Ma thèse de base autour de l’explosion de l’IA a toujours été centrée sur l’essor des agents opérateurs. Mais pour que ces agents réussissent, ils ont besoin d’un accès profond au système, ce qui leur permet de contrôler votre ordinateur personnel et vos données sensibles, ce qui pose de sérieux problèmes de sécurité. Nous avons déjà vu comment des entreprises comme OpenAI et d’autres géants de la technologie gèrent les données des utilisateurs. Alors que la plupart des gens ne s’en soucient pas, les personnes qui bénéficient le plus des agents opérateurs, les 1 % les plus riches, le font absolument. Personnellement, il n’y a aucune chance que je donne à une entreprise comme OpenAI un accès complet à ma machine, même si cela signifie une augmentation de 10 × de la productivité. Alors pourquoi Codec ? L’architecture du codec est centrée sur le lancement de « bureaux cloud » isolés et à la demande pour les agents d’IA. Il s’agit d’un service d’orchestration basé sur Kubernetes (nom de code Captain) qui provisionne des machines virtuelles (VM) légères à l’intérieur des pods Kubernetes. Chaque agent dispose de son propre environnement isolé au niveau du système d’exploitation (une instance complète du système d’exploitation Linux) où il peut exécuter des applications, des navigateurs ou n’importe quel code, entièrement en bac à sable à partir des autres agents et de l’hôte. Kubernetes gère la planification, la mise à l’échelle automatique et l’auto-réparation de ces pods d’agent, ce qui garantit la fiabilité et la possibilité d’augmenter/descendre de nombreuses instances d’agent en fonction des exigences de charge Les environnements d’exécution sécurisés (TEE) sont utilisés pour sécuriser ces machines virtuelles, ce qui signifie que la machine de l’agent peut être isolée de manière cryptographique, que sa mémoire et son exécution peuvent être protégées du système d’exploitation hôte ou du fournisseur de cloud. C’est crucial pour les tâches sensibles : par exemple, une machine virtuelle exécutée dans une enclave peut détenir des clés API ou des secrets de portefeuille crypto en toute sécurité. Lorsqu’un agent d’IA (un « cerveau » basé sur LLM) doit effectuer des actions, il envoie des requêtes d’API au service Captain, qui lance ou gère ensuite le pod VM de l’agent. Le workflow : l’agent demande une machine, Captain (via Kubernetes) alloue un pod et attache un volume persistant (pour le disque de la VM). L’agent peut ensuite se connecter à sa machine virtuelle (via un canal sécurisé ou une interface de streaming) pour émettre des commandes. Captain expose les points de terminaison pour que l’agent puisse exécuter des commandes shell, charger/télécharger des fichiers, récupérer des journaux et même capturer la machine virtuelle pour une restauration ultérieure. Cette conception donne à l’agent un système d’exploitation complet dans lequel travailler, mais avec un accès contrôlé et audité. Parce qu’il est basé sur Kubernetes, le codec peut être mis à l’échelle automatiquement horizontalement, si 100 agents ont besoin d’environnements, il peut planifier 100 pods sur le cluster et gérer les défaillances en redémarrant les pods. La VM de l’agent peut être équipée de différents serveurs MCP (comme un « port USB » pour l’IA). Par exemple, le module Conductor du codec est un conteneur qui exécute un navigateur Chrome ainsi qu’un serveur Microsoft Playwright MCP pour le contrôle du navigateur. Cela permet à un agent d’IA d’ouvrir des pages Web, de cliquer sur des liens, de remplir des formulaires et de récupérer du contenu via des appels MCP standard, comme s’il s’agissait d’un humain contrôlant le navigateur. D’autres intégrations MCP peuvent inclure un MCP de système de fichiers/terminal (pour permettre à un agent d’exécuter des commandes CLI en toute sécurité) ou des MCP spécifiques à une application (pour les API cloud, les bases de données, etc.). Essentiellement, le codec fournit les « wrappers » d’infrastructure (machines virtuelles, enclaves, réseaux) afin que les plans d’agent de haut niveau puissent être exécutés en toute sécurité sur des logiciels et des réseaux réels. Cas d’utilisation Automatisation du portefeuille : Le codec peut intégrer des portefeuilles ou des clés à l’intérieur d’une VM protégée par TEE, ce qui permet à un agent d’IA d’interagir avec les réseaux blockchain (commerce sur la DeFi, gestion d’actifs cryptographiques) sans exposer de clés secrètes. Cette architecture permet aux agents financiers onchain d’exécuter des transactions réelles en toute sécurité, ce qui serait très dangereux dans une configuration d’agent typique. Le slogan de la plate-forme répertorie explicitement la prise en charge des « portefeuilles » comme une capacité clé. Un agent pourrait, par exemple, exécuter une CLI pour un portefeuille Ethereum à l’intérieur de son enclave, signer des transactions et les envoyer, avec l’assurance que si l’agent se comporte mal, il est confiné à sa machine virtuelle et les clés ne quittent jamais le TEE. Automatisation du navigateur et du Web : Les agents CodecFlow peuvent contrôler des navigateurs Web complets dans leur machine virtuelle. L’exemple de Conductor montre un agent qui lance Chrome et diffuse son écran sur Twitch en temps réel. Grâce au MCP Playwright, l’agent peut naviguer sur des sites Web, cliquer sur des boutons et extraire des données comme un utilisateur humain. C’est idéal pour des tâches telles que le grattage Web derrière les connexions, les transactions Web automatisées ou le test d’applications Web. Les frameworks traditionnels reposent généralement sur des appels d’API ou de simples scripts de navigateur sans tête. en revanche, CodecFlow peut exécuter un véritable navigateur avec une interface utilisateur visible, ce qui facilite la gestion d’applications Web complexes (par exemple, avec de lourds défis JavaScript ou CAPTCHA) sous le contrôle de l’IA. Automatisation de l’interface graphique dans le monde réel (systèmes hérités) : Étant donné que chaque agent dispose d’un système d’exploitation de bureau réel, il peut automatiser des applications GUI héritées ou des sessions de bureau à distance, fonctionnant essentiellement comme l’automatisation des processus robotiques (RPA), mais pilotée par l’IA. Par exemple, un agent peut ouvrir une feuille de calcul Excel dans sa machine virtuelle Windows ou s’interfacer avec une ancienne application de terminal qui n’a pas d’API. Le site de Codec mentionne explicitement l’activation de « l’automatisation héritée ». Cela ouvre la voie à l’utilisation de l’IA pour faire fonctionner des logiciels qui ne sont pas accessibles via des API modernes, une tâche qui serait très piratée ou dangereuse sans un environnement confiné. L’intégration noVNC incluse suggère que les agents peuvent être observés ou contrôlés via VNC, ce qui est utile pour surveiller une IA pilotant une interface graphique. Simulation de flux de travail SaaS : Les entreprises ont souvent des processus complexes qui impliquent plusieurs applications SaaS ou systèmes existants. Par exemple, un employé peut prendre des données de Salesforce, les combiner avec des données d’un ERP interne, puis envoyer un résumé par e-mail à un client. Le codec peut permettre à un agent d’IA d’effectuer toute cette séquence en se connectant à ces applications via un navigateur ou un logiciel client dans sa machine virtuelle, un peu comme le ferait un humain. C’est comme la RPA, mais alimentée par un LLM capable de prendre des décisions et de gérer la variabilité. Il est important de noter que les informations d’identification de ces applications peuvent être fournies à la machine virtuelle en toute sécurité (et même enfermées dans un TEE), de sorte que l’agent peut les utiliser sans jamais « voir » les informations d’identification en texte brut ou les exposer en externe. Cela pourrait accélérer l’automatisation des tâches de back-office de routine tout en satisfaisant le service informatique que chaque agent fonctionne avec le moindre privilège et une auditabilité complète (puisque chaque action dans la machine virtuelle peut être enregistrée ou enregistrée). Feuille de route - Lancement de la démo publique à la fin du mois - Comparaison des fonctionnalités avec d’autres plateformes similaires (pas de concurrent web3) - Intégration TAO - Partenariat de jeu à grande échelle En termes d’originalité, Codec est construit sur une base de technologies existantes, mais les intègre d’une manière nouvelle pour l’utilisation d’agents d’IA. L’idée d’environnements d’exécution isolés n’est pas nouvelle (les conteneurs, les machines virtuelles et les TEE sont standard dans le cloud computing), mais leur application à des agents d’IA autonomes dotés d’une couche API (MCP) transparente est extrêmement nouvelle. La plate-forme s’appuie sur des normes et des outils ouverts dans la mesure du possible : elle utilise des serveurs MCP comme Playwright de Microsoft pour le contrôle du navigateur au lieu de réinventer cette roue, et prévoit de prendre en charge les micro-VM Firecracker d’AWS pour une virtualisation plus rapide. Il a également bifurqué des solutions existantes comme noVNC pour le streaming de bureaux. La démonstration du projet repose sur des technologies éprouvées (Kubernetes, matériel enclave, bibliothèques open source), en concentrant son développement original sur la logique de collage et l’orchestration (la « sauce secrète » est la façon dont tout cela fonctionne ensemble). La combinaison de composants open source et d’un service cloud à venir (suggéré par la mention d’un utilitaire de jeton $CODEC et d’un accès public au produit) signifie que Codec sera bientôt accessible sous plusieurs formes (à la fois en tant que service et auto-hébergé). Équipe Moyai : 15+ ans d’expérience en développement, actuellement à la tête du développement de l’IA chez Elixir Games. lil’km : 5+ ans de développement IA, travaille actuellement avec HuggingFace sur le projet LeRobot. HuggingFace est une énorme entreprise de robotique et Moyai travaille en tant que responsable de l’IA chez elixir games (soutenu par Square Enix et Solanafdn. J’ai personnellement appelé toute l’équipe par vidéo et j’aime vraiment l’énergie qu’ils apportent. Mon ami qui les a mis sur mon radar les a également tous rencontrés à Token2049 et n’avait que de bonnes choses à dire. Réflexions finales Il reste encore beaucoup à couvrir, que je garderai pour de futures mises à jour et messages sur ma chaîne Telegram. J’ai longtemps cru que l’infrastructure cloud était l’avenir des agents opérateurs. J’ai toujours respecté ce que Nuit est en train de construire, mais Codec est le premier projet qui m’a montré la conviction full-stack que je recherchais. L’équipe est clairement composée d’ingénieurs de haut niveau. Ils ont ouvertement dit que le marketing n’était pas leur force, ce qui explique probablement pourquoi cela est passé inaperçu. Je travaillerai en étroite collaboration avec eux pour les aider à façonner la stratégie GTM qui reflète réellement la profondeur de ce qu’ils construisent. Avec une capitalisation boursière de 4 millions de dollars et ce niveau d’infrastructure, il semble massivement sous-évalué. S’ils peuvent livrer un produit utilisable, je pense que cela pourrait facilement marquer le début du prochain cycle d’infra-intelligence artificielle. Comme toujours, il y a des risques et bien que j’aie examiné l’équipe en toute discrétion au cours des dernières semaines, aucun projet n’est jamais complètement à l’épreuve des tapis. Objectifs de prix ? Beaucoup plus élevé.

En savoir plus sur les raisons pour lesquelles j’ai choisi Codec > Nuit pour les opérateurs : Le codec utilise une architecture à trois couches (machine, système, intelligence) permettant des agents isolés et hautes performances avec un contrôle natif. Chaque agent Codec s’exécute localement à l’aide d’une boucle VLA (Vision-Language-Action), ce qui réduit la latence et augmente la fiabilité. Le modèle de Nuit dépend de l’analyse du navigateur + des appels d’IA dans le cloud, ce qui limite la flexibilité et introduit de la fragilité. Le codec s’adapte horizontalement à des milliers d’agents, sans état partagé et avec une modularité tolérante aux pannes.

2,87K

Meilleurs

Classement

Favoris