Virtuelle Umgebungen für Operator-Agenten: $CODEC Meine Kernthese rund um die Explosion der KI drehte sich schon immer um den Aufstieg von Operator Agents. Damit diese Agenten jedoch erfolgreich sein können, benötigen sie einen tiefgreifenden Systemzugriff, der ihnen effektiv die Kontrolle über Ihren PC und Ihre sensiblen Daten gewährt, was zu ernsthaften Sicherheitsbedenken führt. Wir haben bereits gesehen, wie Unternehmen wie OpenAI und andere Tech-Giganten mit Nutzerdaten umgehen. Während es den meisten Menschen egal ist, tun es die Personen, die am meisten von Operator-Agenten profitieren können, die oberen 1 % absolut. Persönlich gibt es keine Chance, dass ich einem Unternehmen wie OpenAI vollen Zugriff auf meine Maschine gebe, selbst wenn dies eine Produktivitätssteigerung von 10 × bedeutet. Warum also Codec? Die Architektur des Codecs konzentriert sich auf die Einführung isolierter On-Demand-"Cloud-Desktops" für KI-Agenten. Im Mittelpunkt steht ein Kubernetes-basierter Orchestrierungsdienst (Codename Captain), der leichtgewichtige virtuelle Maschinen (VMs) in Kubernetes-Pods bereitstellt. Jeder Agent erhält eine eigene isolierte Umgebung auf Betriebssystemebene (eine vollständige Linux-Betriebssysteminstanz), in der Anwendungen, Browser oder beliebiger Code ausgeführt werden können, die vollständig von anderen Agenten und dem Host in einer Sandbox ausgeführt werden. Kubernetes kümmert sich um die Planung, automatische Skalierung und Selbstreparatur dieser Agent-Pods und gewährleistet so die Zuverlässigkeit und die Möglichkeit, viele Agent-Instanzen bei Lastbedarf hoch- und herunterzufahren Trusted Execution Environments (TEEs) werden verwendet, um diese VMs zu sichern, d. h. der Computer des Agenten kann kryptografisch isoliert werden, sein Arbeitsspeicher und seine Ausführung können vor dem Host-Betriebssystem oder dem Cloud-Anbieter geschützt werden. Dies ist für sensible Aufgaben von entscheidender Bedeutung: Zum Beispiel könnte eine VM, die in einer Enclave ausgeführt wird, API-Schlüssel oder Krypto-Wallet-Geheimnisse sicher speichern. Wenn ein KI-Agent (ein LLM-basiertes "Gehirn") Aktionen ausführen muss, sendet er API-Anfragen an den Captain-Dienst, der dann den VM-Pod des Agenten startet oder verwaltet. Der Workflow: Der Agent fordert eine Maschine an, der Captain (über Kubernetes) weist einen Pod zu und fügt ein persistentes Volume (für die Festplatte der VM) an. Der Agent kann dann eine Verbindung mit seiner VM herstellen (über einen sicheren Kanal oder eine Streaming-Schnittstelle), um Befehle auszugeben. Captain macht Endpunkte für den Agenten verfügbar, um Shell-Befehle auszuführen, Dateien hoch- und herunterzuladen, Protokolle abzurufen und sogar Snapshots der VM für eine spätere Wiederherstellung zu erstellen. Dieser Entwurf bietet dem Agent ein vollständiges Betriebssystem, in dem er arbeiten kann, jedoch mit kontrolliertem, überwachtem Zugriff. Da Codec auf Kubernetes basiert, kann es automatisch horizontal skaliert werden, wenn 100 Agenten Umgebungen benötigen, kann es 100 Pods im gesamten Cluster planen und Ausfälle durch Neustart von Pods behandeln. Die VM des Agenten kann mit verschiedenen MCP-Servern ausgestattet werden (z. B. einem "USB-Port" für KI). Das Conductor-Modul von Codec ist beispielsweise ein Container, der einen Chrome-Browser zusammen mit einem Microsoft Playwright MCP-Server zur Browsersteuerung ausführt. Auf diese Weise kann ein KI-Agent Webseiten öffnen, auf Links klicken, Formulare ausfüllen und Inhalte über Standard-MCP-Aufrufe scrapen, als wäre er ein Mensch, der den Browser steuert. Andere MCP-Integrationen können ein Dateisystem-/Terminal-MCP (damit ein Agent CLI-Befehle sicher ausführen kann) oder anwendungsspezifische MCPs (für Cloud-APIs, Datenbanken usw.) umfassen. Im Wesentlichen stellt Codec die Infrastruktur-"Wrapper" (VMs, Enclaves, Netzwerke) bereit, damit High-Level-Agent-Pläne sicher in echter Software und Netzwerken ausgeführt werden können. Anwendungsfälle Wallet-Automatisierung: Der Codec kann Wallets oder Schlüssel in eine TEE-geschützte VM einbetten, so dass ein KI-Agent mit Blockchain-Netzwerken interagieren (Handel auf DeFi, Verwaltung von Krypto-Assets), ohne geheime Schlüssel preiszugeben. Diese Architektur ermöglicht es Onchain-Finanzagenten, echte Transaktionen sicher auszuführen, was in einem typischen Agenten-Setup sehr gefährlich wäre. Der Slogan der Plattform listet die Unterstützung von "Wallets" ausdrücklich als Schlüsselfunktion auf. Ein Agent könnte beispielsweise eine CLI für eine Ethereum-Wallet in seiner Enclave ausführen, Transaktionen signieren und senden, mit der Gewissheit, dass der Agent im Falle eines Fehlverhaltens auf seine VM beschränkt ist und die Schlüssel den TEE nie verlassen. Browser- und Web-Automatisierung: CodecFlow-Agents können vollständige Webbrowser in ihrer VM steuern. Das Conductor-Beispiel zeigt, wie ein Agent Chrome startet und seinen Bildschirm in Echtzeit an Twitch streamt. Über das Playwright MCP kann der Agent wie ein menschlicher Benutzer auf Websites navigieren, auf Schaltflächen klicken und Daten abrufen. Dies ist ideal für Aufgaben wie Web-Scraping hinter Logins, automatisierte Webtransaktionen oder das Testen von Web-Apps. Traditionelle Frameworks stützen sich in der Regel auf API-Aufrufe oder einfache Headless-Browserskripte. Im Gegensatz dazu kann CodecFlow einen echten Browser mit einer sichtbaren Benutzeroberfläche ausführen, was die Handhabung komplexer Webanwendungen (z. B. mit starken JavaScript- oder CAPTCHA-Herausforderungen) unter KI-Kontrolle erleichtert. UI-Automatisierung in der Praxis (Legacy-Systeme): Da jeder Agent über ein tatsächliches Desktop-Betriebssystem verfügt, kann er ältere GUI-Anwendungen oder Remote-Desktop-Sitzungen automatisieren, die im Wesentlichen wie Robotic Process Automation (RPA) funktionieren, aber von KI gesteuert werden. Ein Agent kann z. B. eine Excel-Tabelle in seiner Windows-VM öffnen oder eine Schnittstelle zu einer alten Terminalanwendung herstellen, die über keine API verfügt. Auf der Website des Codecs wird explizit erwähnt, dass die "Legacy-Automatisierung" aktiviert wird. Dies eröffnet die Verwendung von KI für den Betrieb von Software, die nicht über moderne APIs zugänglich ist, eine Aufgabe, die ohne eine geschlossene Umgebung sehr hackig oder unsicher wäre. Die enthaltene noVNC-Integration deutet darauf hin, dass Agenten über VNC beobachtet oder gesteuert werden können, was für die Überwachung einer KI nützlich ist, die eine GUI steuert. Simulieren von SaaS-Workflows: Unternehmen haben oft komplexe Prozesse, die mehrere SaaS-Anwendungen oder Altsysteme umfassen. Zum Beispiel könnte ein Mitarbeiter Daten aus Salesforce nehmen, sie mit Daten aus einem internen ERP kombinieren und dann eine Zusammenfassung per E-Mail an einen Kunden senden. Der Codec kann es einem KI-Agenten ermöglichen, diese gesamte Sequenz auszuführen, indem er sich über einen Browser oder eine Client-Software in seiner VM bei diesen Apps anmeldet, ähnlich wie es ein Mensch tun würde. Dies ist wie RPA, aber angetrieben von einem LLM, das Entscheidungen treffen und mit Variabilität umgehen kann. Wichtig ist, dass Anmeldeinformationen für diese Apps der VM sicher zur Verfügung gestellt werden können (und sogar in einem TEE eingeschlossen sind), sodass der Agent sie verwenden kann, ohne jemals Klartext-Anmeldeinformationen zu "sehen" oder sie extern verfügbar zu machen. Dies könnte die Automatisierung routinemäßiger Backoffice-Aufgaben beschleunigen und gleichzeitig die IT-Abteilung davon überzeugen, dass jeder Agent mit den geringsten Rechten und vollständiger Überprüfbarkeit ausgeführt wird (da jede Aktion in der VM protokolliert oder aufgezeichnet werden kann). Fahrplan - Öffentliche Demo am Ende des Monats starten - Funktionsvergleich mit anderen ähnlichen Plattformen (kein Web3-Konkurrent) - TAO-Integration - Große Gaming-Partnerschaft In Bezug auf die Originalität baut Codec auf einem Fundament bestehender Technologien auf, integriert diese jedoch auf neuartige Weise für die Verwendung von KI-Agenten. Die Idee von isolierten Ausführungsumgebungen ist nicht neu (Container, VMs und TEEs sind Standard im Cloud Computing), aber ihre Anwendung auf autonome KI-Agenten mit einer nahtlosen API-Schicht (MCP) ist äußerst neu. Die Plattform nutzt offene Standards und Tools, wo immer dies möglich ist: Sie verwendet MCP-Server wie Playwright von Microsoft für die Browsersteuerung, anstatt das Rad neu zu erfinden, und plant, die Firecracker-Micro-VMs von AWS für eine schnellere Virtualisierung zu unterstützen. Es wurden auch bestehende Lösungen wie noVNC für das Streaming von Desktops abgespalten. Es wird gezeigt, dass das Projekt auf den Grundlagen bewährter Technologie (Kubernetes, Enclave-Hardware, Open-Source-Bibliotheken) aufbaut und sich bei der ursprünglichen Entwicklung auf Glue-Logik und Orchestrierung konzentriert (die "geheime Zutat" ist, wie alles zusammenarbeitet). Die Kombination aus Open-Source-Komponenten und einem bevorstehenden Cloud-Dienst (angedeutet durch die Erwähnung eines $CODEC Token-Dienstprogramms und des Zugangs zu öffentlichen Produkten) bedeutet, dass Codec bald in mehreren Formen zugänglich sein wird (sowohl als Service als auch selbst gehostet). Mannschaft Moyai: 15+ Jahre Entwicklererfahrung, derzeit leitet er die KI-Entwicklung bei Elixir Games. lil'km: 5+ Jahre KI-Entwickler, arbeitet derzeit mit HuggingFace am LeRobot-Projekt. HuggingFace ist ein riesiges Robotik-Unternehmen und Moyai arbeitet als Head of AI bei Elixir Games (unterstützt von Square Enix und Solanafdn). Ich habe persönlich mit dem gesamten Team telefoniert und mag die Energie, die sie mitbringen, sehr. Mein Freund, der sie auf meinen Radar gebracht hat, hat sie auch alle auf der Token2049 getroffen und hatte nur Gutes zu sagen. Abschließende Gedanken Es gibt noch viel zu berichten, was ich mir für zukünftige Updates und Beiträge in meinem Telegram-Kanal aufheben werde. Ich glaube seit langem, dass die Cloud-Infrastruktur die Zukunft für Operator-Agenten ist. Ich habe immer respektiert, was Nuit entwickelt, aber Codec ist das erste Projekt, das mir die Full-Stack-Überzeugung gezeigt hat, nach der ich gesucht habe. Das Team besteht eindeutig aus erstklassigen Ingenieuren. Sie haben offen gesagt, dass Marketing nicht ihre Stärke ist, was wahrscheinlich der Grund dafür ist, dass dies unter dem Radar geflogen ist. Ich werde eng mit ihnen zusammenarbeiten, um die GTM-Strategie zu gestalten, die die Tiefe dessen, was sie aufbauen, widerspiegelt. Mit einer Marktkapitalisierung von 4 Mio. $ und diesem Infrastrukturniveau fühlt es sich massiv unterbewertet an. Wenn sie ein brauchbares Produkt liefern können, könnte dies meiner Meinung nach leicht den Beginn des nächsten KI-Infrastrukturzyklus markieren. Wie immer gibt es Risiken, und obwohl ich das Team in den letzten Wochen heimlich überprüft habe, ist kein Projekt jemals vollständig teppichsicher. Kursziele? Viel höher.
21,28K