DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

OpenAI ha appena confermato la mia tesi sulla stella polare per l'IA oggi rilasciando il loro agente operatore. Non solo questa è stata la mia tesi guida per $CODEC, ma anche per ogni altro investimento nell'IA che ho fatto, compresi quelli dell'inizio dell'anno durante la mania dell'IA. Ci sono state molte discussioni con Codec per quanto riguarda la robotica, anche se questo verticale avrà la sua narrativa molto presto, il motivo di fondo per cui sono stato così ottimista su Codec dal primo giorno è dovuto al modo in cui la sua architettura alimenta gli agenti operatori. Le persone ancora sottovalutano quanta quota di mercato sia in gioco costruendo software che funzionano in modo autonomo, superando i lavoratori umani senza la necessità di continui suggerimenti o supervisione. Ho visto molti paragoni con $NUIT. Prima di tutto voglio dire che sono un grande fan di ciò che Nuit sta costruendo e non desidero altro che il loro successo. Se digiti "nuit" nel mio telegramma, vedrai che ad aprile ho detto che se avessi dovuto tenere una moneta per più mesi sarebbe stata Nuit a causa della mia tesi di operatore. Nuit era il progetto di operatore più promettente sulla carta, ma dopo un'ampia ricerca, ho scoperto che la loro architettura mancava della profondità necessaria per giustificare un investimento importante o per mettere la mia reputazione dietro di esso. Con questo in mente, ero già consapevole delle lacune architettoniche nei team di agenti operatori esistenti e cercavo attivamente un progetto che le risolvesse. Poco dopo è apparso Codec (grazie a @0xdetweiler insistito che li ho esaminati più a fondo) e questa è la differenza tra i due: $CODEC contro $NUIT L'architettura del codec è costruita su tre livelli; Machine, System e Intelligence, che separano l'infrastruttura, l'interfaccia dell'ambiente e la logica dell'intelligenza artificiale. Ogni agente operatore in Codec viene eseguito nella propria macchina virtuale o contenitore isolato, consentendo prestazioni quasi native e isolamento degli errori. Questo design a strati significa che i componenti possono scalare o evolversi in modo indipendente senza interrompere il sistema. L'architettura di Nuit prende una strada diversa, essendo più monolitica. Il loro stack ruota attorno a un agente browser Web specializzato che combina analisi, ragionamento AI e azione. Ciò significa che analizzano in profondità le pagine Web in dati strutturati che l'intelligenza artificiale può utilizzare e si affidano all'elaborazione cloud per le attività di intelligenza artificiale pesanti. L'approccio di Codec di incorporare un modello leggero di Visione-Linguaggio-Azione (VLA) all'interno di ciascun agente significa che può essere eseguito completamente localmente. Ciò non richiede un ping costante al cloud per le istruzioni, eliminando la latenza ed evitando la dipendenza da tempi di attività e larghezza di banda. L'agente di Nuit elabora le attività convertendo prima le pagine Web in un formato semantico e quindi utilizzando un cervello LLM per capire cosa fare, che migliora nel tempo con l'apprendimento per rinforzo. Sebbene sia efficace per l'automazione web, questo flusso dipende da un'intensa elaborazione dell'intelligenza artificiale lato cloud e da strutture di pagina predefinite. L'intelligenza locale del dispositivo di Codec significa che le decisioni avvengono più vicino ai dati, riducendo il sovraccarico e rendendo il sistema più stabile a modifiche impreviste (nessun script fragile o ipotesi DOM). Gli operatori del codec seguono un ciclo continuo di percepire-pensare-agire. Il livello macchina trasmette l'ambiente (ad esempio un'app live o un feed robotico) al livello di intelligenza tramite i canali ottimizzati del livello di sistema, fornendo all'IA "occhi" sullo stato corrente. Il modello VLA dell'agente interpreta quindi le immagini e le istruzioni insieme per decidere un'azione, che il livello di sistema esegue tramite eventi di tastiera/mouse o controllo robot. Questo ciclo integrato significa che si adatta agli eventi live, anche se l'interfaccia utente si sposta, non interromperai il flusso. Per mettere tutto questo in un'analogia più semplice, pensate agli operatori di Codec come a un dipendente autosufficiente che si adatta alle sorprese sul lavoro. L'agente di Nuit è come un dipendente che ha bisogno di fare una pausa, descrivere la situazione a un supervisore al telefono e attendere istruzioni. Senza entrare troppo nella tana del coniglio tecnico, questo dovrebbe darti un'idea di alto livello sul perché ho scelto Codec come scommessa principale sugli operatori. Sì, Nuit ha il sostegno di YC, di un team impilato e di github di livello S. Sebbene l'architettura di Codec sia stata costruita pensando alla scalabilità orizzontale, il che significa che è possibile distribuire migliaia di agenti in parallelo senza memoria condivisa o contesto di esecuzione tra gli agenti. Anche il team di Codec non è composto da sviluppatori medi. La loro architettura VLA apre una moltitudine di casi d'uso che non erano possibili con i precedenti modelli di agenti a causa della visione attraverso i pixel, non degli screenshot. Potrei continuare, ma lo terrò per i post futuri.

Ambienti virtuali per agenti operatore: $CODEC La mia tesi centrale sull'esplosione dell'IA è sempre stata incentrata sull'ascesa degli agenti operatori. Ma per avere successo, questi agenti richiedono un accesso approfondito al sistema, che garantisca loro il controllo sul personal computer e sui dati sensibili, il che introduce seri problemi di sicurezza. Abbiamo già visto come aziende come OpenAI e altri giganti della tecnologia gestiscono i dati degli utenti. Mentre alla maggior parte delle persone non importa, gli individui che trarranno i maggiori benefici dagli agenti operatori, l'1% più ricco, lo fanno assolutamente. Personalmente, non c'è alcuna possibilità di dare a un'azienda come OpenAI l'accesso completo alla mia macchina, anche se ciò significa un aumento della produttività del 10×. Allora perché Codec? L'architettura di Codec è incentrata sul lancio di "desktop cloud" isolati e on-demand per gli agenti di intelligenza artificiale. Al centro c'è un servizio di orchestrazione basato su Kubernetes (nome in codice Captain) che esegue il provisioning di macchine virtuali leggere (VM) all'interno di pod Kubernetes. Ogni agente ottiene il proprio ambiente isolato a livello di sistema operativo (un'istanza completa del sistema operativo Linux) in cui può eseguire applicazioni, browser o qualsiasi codice, completamente in modalità sandbox da altri agenti e dall'host. Kubernetes gestisce la pianificazione, il ridimensionamento automatico e la riparazione automatica di questi pod di agenti, garantendo l'affidabilità e la capacità di attivare/disattivare molte istanze di agenti in base alle esigenze di carico Gli ambienti di esecuzione attendibili (TEE) vengono utilizzati per proteggere queste macchine virtuali, il che significa che il computer dell'agente può essere isolato crittograficamente, la memoria e l'esecuzione possono essere protette dal sistema operativo host o dal provider cloud. Questo è fondamentale per le attività sensibili: ad esempio, una VM in esecuzione in un'enclave potrebbe contenere le chiavi API o i segreti del portafoglio crittografico in modo sicuro. Quando un agente di intelligenza artificiale (un "cervello" basato su LLM) deve eseguire azioni, invia richieste API al servizio Captain, che quindi avvia o gestisce il pod VM dell'agente. Il flusso di lavoro: l'agente richiede una macchina, Captain (tramite Kubernetes) alloca un pod e collega un volume persistente (per il disco della VM). L'agente può quindi connettersi alla propria VM (tramite un canale sicuro o un'interfaccia di streaming) per emettere comandi. Captain espone gli endpoint per consentire all'agente di eseguire comandi della shell, caricare/scaricare file, recuperare registri e persino creare snapshot della VM per un successivo ripristino. Questa progettazione offre all'agente un sistema operativo completo in cui lavorare, ma con accesso controllato e verificato. Poiché è basato su Kubernetes, Codec può ridimensionare automaticamente orizzontalmente, se 100 agenti necessitano di ambienti, può pianificare 100 pod nel cluster e gestire gli errori riavviando i pod. La VM dell'agente può essere dotata di vari server MCP (come una "porta USB" per l'intelligenza artificiale). Ad esempio, il modulo Conductor di Codec è un contenitore che esegue un browser Chrome insieme a un server MCP di Microsoft Playwright per il controllo del browser. Ciò consente a un agente di intelligenza artificiale di aprire pagine Web, fare clic su collegamenti, compilare moduli e raschiare i contenuti tramite chiamate MCP standard, come se fosse un essere umano a controllare il browser. Altre integrazioni MCP potrebbero includere un MCP di filesystem/terminale (per consentire a un agente di eseguire i comandi CLI in modo sicuro) o MCP specifici per l'applicazione (per API cloud, database, ecc.). Essenzialmente, Codec fornisce i "wrapper" dell'infrastruttura (VM, enclavi, networking) in modo che i piani di agenti di alto livello possano essere eseguiti in sicurezza su software e reti reali. Casi d'uso Automazione del portafoglio: Il codec può incorporare portafogli o chiavi all'interno di una VM protetta da TEE, consentendo a un agente AI di interagire con le reti blockchain (fare trading su DeFi, gestire asset crittografici) senza esporre chiavi segrete. Questa architettura consente agli agenti finanziari onchain di eseguire transazioni reali in modo sicuro, cosa che sarebbe molto pericolosa in una tipica configurazione di agente. Lo slogan della piattaforma elenca esplicitamente il supporto per i "portafogli" come funzionalità chiave. Un agente potrebbe, ad esempio, eseguire una CLI per un portafoglio Ethereum all'interno della sua enclave, firmare transazioni e inviarle, con la certezza che se l'agente si comporta male, è confinato nella sua VM e le chiavi non lasciano mai il TEE. Automazione del browser e del web: Gli agenti CodecFlow possono controllare i Web browser completi nella macchina virtuale. L'esempio di Conductor mostra un agente che avvia Chrome e trasmette lo schermo a Twitch in tempo reale. Attraverso l'MCP di Playwright, l'agente può navigare nei siti Web, fare clic sui pulsanti e raschiare i dati proprio come un utente umano. Questo è l'ideale per attività come il web scraping dietro gli accessi, le transazioni web automatizzate o il test di app web. I framework tradizionali di solito si basano su chiamate API o semplici script di browser headless; al contrario, CodecFlow può eseguire un browser reale con un'interfaccia utente visibile, semplificando la gestione di applicazioni Web complesse (ad esempio con pesanti sfide JavaScript o CAPTCHA) sotto il controllo dell'intelligenza artificiale. Automazione GUI nel mondo reale (sistemi legacy): Poiché ogni agente dispone di un vero e proprio sistema operativo desktop, può automatizzare le applicazioni GUI legacy o le sessioni di desktop remoto, funzionando essenzialmente come l'automazione robotica dei processi (RPA) ma guidata dall'intelligenza artificiale. Ad esempio, un agente potrebbe aprire un foglio di calcolo Excel nella sua macchina virtuale Windows o interfacciarsi con una vecchia applicazione terminale che non dispone di API. Il sito di Codec menziona esplicitamente l'abilitazione dell'"automazione legacy". Questo apre la strada all'utilizzo dell'intelligenza artificiale per gestire software che non sono accessibili tramite le moderne API, un'attività che sarebbe molto complicata o pericolosa senza un ambiente contenuto. L'integrazione noVNC inclusa suggerisce che gli agenti possono essere osservati o controllati tramite VNC, il che è utile per monitorare un'intelligenza artificiale che guida una GUI. Simulazione dei flussi di lavoro SaaS: Le aziende hanno spesso processi complessi che coinvolgono più applicazioni SaaS o sistemi legacy. ad esempio, un dipendente potrebbe prendere i dati da Salesforce, combinarli con i dati di un ERP interno, quindi inviare via e-mail un riepilogo a un cliente. Il codec può consentire a un agente di intelligenza artificiale di eseguire l'intera sequenza accedendo effettivamente a queste app tramite un browser o un software client nella sua VM, proprio come farebbe un essere umano. Questo è come l'RPA, ma alimentato da un LLM in grado di prendere decisioni e gestire la variabilità. È importante sottolineare che le credenziali di queste app possono essere fornite alla macchina virtuale in modo sicuro (e persino racchiuse in un TEE), in modo che l'agente possa usarle senza mai "vedere" le credenziali in chiaro o esporle esternamente. Ciò potrebbe accelerare l'automazione delle attività di back office di routine, soddisfacendo al contempo l'IT che ogni agente viene eseguito con privilegi minimi e piena verificabilità (poiché ogni azione nella VM può essere registrata o registrata). Cartina stradale - Lancio della demo pubblica alla fine del mese - Confronto delle funzionalità con altre piattaforme simili (nessun concorrente web3) - Integrazione TAO - Ampia partnership di gioco In termini di originalità, Codec si basa su una base di tecnologie esistenti, ma le integra in un modo nuovo per l'utilizzo degli agenti di intelligenza artificiale. L'idea di ambienti di esecuzione isolati non è nuova (container, VM e TEE sono standard nel cloud computing), ma applicarli ad agenti di intelligenza artificiale autonomi con un livello API (MCP) senza soluzione di continuità è estremamente nuovo. La piattaforma sfrutta standard e strumenti aperti ove possibile: utilizza server MCP come Playwright di Microsoft per il controllo del browser invece di reinventare quella ruota e prevede di supportare le micro-VM Firecracker di AWS per una virtualizzazione più rapida. Ha anche biforcato soluzioni esistenti come noVNC per lo streaming di desktop. Dimostrare il progetto si basa su una tecnologia collaudata (Kubernetes, hardware enclave, librerie open source), concentrando il suo sviluppo originale sulla logica di colla e sull'orchestrazione (la "salsa segreta" è il modo in cui tutto funziona insieme). La combinazione di componenti open source e di un servizio cloud in arrivo (suggerito dalla menzione di un'utilità di token $CODEC e dell'accesso pubblico al prodotto) significa che Codec sarà presto accessibile in più forme (sia come servizio che self-hosted). Squadra Moyai: 15+ anni di esperienza come sviluppatore, attualmente alla guida dello sviluppo dell'intelligenza artificiale presso Elixir Games. lil'km: 5+ anni di sviluppo AI, attualmente lavora con HuggingFace al progetto LeRobot. HuggingFace è un'enorme azienda di robotica e Moyai lavora come responsabile dell'intelligenza artificiale presso Elixir Games (sostenuta da Square Enix e Solanafdn. Ho videochiamato personalmente l'intero team e mi piace molto l'energia che portano. Anche il mio amico che li ha messi sul mio radar li ha incontrati tutti a Token2049 e aveva solo cose positive da dire. Considerazioni finali C'è ancora molto da coprire, che conserverò per futuri aggiornamenti e post nel mio canale Telegram. Da tempo credo che l'infrastruttura cloud sia il futuro per gli agenti degli operatori. Ho sempre rispettato ciò che Nuit sta costruendo, ma Codec è il primo progetto che mi ha mostrato la convinzione full-stack che stavo cercando. Il team è chiaramente composto da ingegneri di alto livello. Hanno detto apertamente che il marketing non è il loro forte, motivo per cui probabilmente questo è passato inosservato. Lavorerò a stretto contatto con loro per contribuire a plasmare la strategia GTM che rifletta effettivamente la profondità di ciò che stanno costruendo. Con una capitalizzazione di mercato di 4 milioni di dollari e questo livello di infrastrutture, sembra enormemente sottovalutato. Se riusciranno a fornire un prodotto utilizzabile, penso che potrebbe facilmente segnare l'inizio del prossimo ciclo di infrastrutture AI. Come sempre, c'è un rischio e anche se ho controllato il team di nascosto nelle ultime settimane, nessun progetto è mai completamente a prova di tappeto. Obiettivi di prezzo? Molto più in alto.

Sintesi su perché ho scelto Codec > Nuit per gli Operatori: Codec utilizza un'architettura a tre livelli (Macchina, Sistema, Intelligenza) che consente agenti isolati e ad alte prestazioni con controllo nativo. Ogni agente Codec opera localmente utilizzando un ciclo Vision-Language-Action (VLA), riducendo la latenza e aumentando l'affidabilità. Il modello di Nuit dipende dal parsing del browser + chiamate AI nel cloud, il che limita la flessibilità e introduce fragilità. Codec si scala orizzontalmente su migliaia di agenti, senza stato condiviso e modularità tollerante ai guasti.

2,87K

Principali

Ranking

Preferiti