DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

CodecFlow

Strat de execuție pentru operatori AI și robotică pe @Solana CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump

VLA sunt încă foarte noi și multor oameni le este greu să înțeleagă diferența dintre VLA și LLM-uri. Iată o analiză profundă a modului în care aceste sisteme AI diferă în raționament, senzație și acțiune. Partea 1. Să analizăm distincțiile cheie și modul în care agenții AI înfășurați în jurul unui LLM diferă de agenții operatori care folosesc modele VLA: 1. Simț: Cum percep lumea Agent (LLM): procesează text sau date structurate, de exemplu JSON, API-uri și, uneori, imagini. Este ca un creier care lucrează cu intrări curate și abstracte. Gândiți-vă la citirea unui manual sau la analizarea unei foi de calcul. Excelent pentru medii structurate, dar limitat de ceea ce este alimentat. Operator (VLA): vede pixelii bruti, în timp real, de la camere, plus datele senzorului (de exemplu, atingerea, poziția) și propriocepția (autoconștientizarea mișcării). Este ca și cum ai naviga prin lume cu ochii și simțurile, prosperând în setări dinamice și dezordonate, cum ar fi interfețele de utilizare sau spațiile fizice. 2. Acționează: Cum interacționează Agent: acționează prin apelarea funcțiilor, instrumentelor sau API-urilor. Imaginați-vă că este un manager care trimite instrucțiuni precise, cum ar fi "rezervați un zbor prin API-ul Expedia". Este deliberat, dar se bazează pe instrumente pre-construite și interfețe clare. Operator: Execută acțiuni continue, de nivel scăzut, cum ar fi mișcarea cursorului mouse-ului, tastarea sau controlul articulațiilor robotului. Este ca un muncitor calificat care manipulează direct mediul, ideal pentru sarcini care necesită precizie în timp real. 3. Control: Cum iau decizii Agent: Urmează o buclă lentă, reflexivă: planifică, apelează un instrument, evaluează rezultatul, repetă. Este legat de token (limitat de procesarea textului) și legat de rețea (așteaptă răspunsurile API). Acest lucru îl face metodic, dar lent pentru sarcinile în timp real. Operator: Operează, luând decizii treptate într-o buclă strânsă de feedback. Gândiți-vă la asta ca la un jucător care reacționează instantaneu la ceea ce este pe ecran. Această viteză permite interacțiunea fluidă, dar necesită o procesare robustă în timp real. 4. Date de învățat: ce le alimentează pregătirea Agent: Antrenat pe corpus de text vast, instrucțiuni, documentație sau seturi de date RAG (Retrieval-Augmented Generation). Învață din cărți, cod sau întrebări frecvente, excelând la raționament în detrimentul cunoștințelor structurate. Operator: Învață din demonstrații (de exemplu, videoclipuri cu oameni care efectuează sarcini), jurnale de teleoperare sau semnale de recompensă. Este ca și cum ai învăța urmărind și exersând, perfect pentru sarcini în care instrucțiunile explicite sunt rare. 5. Moduri de eșec: unde se rup Agent: Predispus la halucinații sau planuri fragile pe termen lung care se destramă dacă un pas eșuează. Este ca un strateg care se gândește prea mult sau interpretează greșit situația. Operator: Se confruntă cu schimbarea covariabilelor (atunci când datele de antrenament nu se potrivesc cu condițiile din lumea reală) sau cu erori combinate în control (mici greșeli bulgăre de zăpadă). Este ca un șofer care pierde controlul pe un drum necunoscut. 6. Infra: Tehnologia din spatele lor Agent: Se bazează pe un prompt/router pentru a decide ce instrumente să apeleze, un registru de instrumente pentru funcțiile disponibile și memorie/RAG pentru context. Este o configurație modulară, ca un centru de comandă care orchestrează sarcini. Operator: Are nevoie de conducte de ingestie video, un server de acțiune pentru control în timp real, un scut de siguranță pentru a preveni acțiunile dăunătoare și un tampon de reluare pentru a stoca experiențe. Este un sistem de înaltă performanță construit pentru medii dinamice. 7. Unde fiecare strălucește: Punctele lor dulci Agent: Domină în fluxurile de lucru cu API-uri curate (de exemplu, automatizarea proceselor de afaceri), raționament asupra documentelor (de exemplu, rezumarea rapoartelor) sau generarea de cod. Este alegerea ta pentru sarcini structurate, de nivel înalt. Operator: Excelează în medii dezordonate, fără API, cum ar fi navigarea în interfețe de utilizare greoaie, controlul roboților sau abordarea sarcinilor asemănătoare jocurilor. Dacă implică interacțiune în timp real cu sisteme imprevizibile, VLA este rege. 8. Model mental: planificator + întreprinzător Gândiți-vă la agentul LLM ca la planificator: împarte sarcinile complexe în obiective clare și logice. Operatorul VLA este cel care execută, executând aceste obiective prin interacțiunea directă cu pixelii sau sistemele fizice. Un verificator (un alt sistem sau agent) monitorizează rezultatele pentru a asigura succesul. $CODEC

Codecflow Optr oferă o abordare unificată pentru a construi agenți care văd, raționează și acționează în medii digitale și fizice. Fie că automatizează fluxurile de lucru desktop, controlează brațele robotului sau testează în simulare, folosește același model mental și primitive.

Scăderile într-o piață bull sunt menite să fie cumpărate, în special pe proiecte cu catalizatori mari Știm cu toții că AI este narațiunea acestui ciclu, început de ai16z și Virtuals anul trecut. Pariul meu este că piața se va concentra pe tehnologii mai complexe și mai sofisticate, cum ar fi VLA-urile, și permiteți-mi să vă spun de ce. LLM-urile (Large Language Models) citesc și scriu în principal text: sunt grozave la explicarea, planificarea și generarea de instrucțiuni, dar nu controlează singure motoarele sau interacționează cu lumea fizică (așa cum este posibil să fi experimentat cu ChatGPT). VLA-urile (Vision Language Action models) diferă de LLM-uri prin faptul că sunt sisteme multimodale care privesc lucrurile (viziune), înțeleg instrucțiuni (limbaj) și produc direct acțiuni. Este ca și cum i-ai spune unui robot să ridice o ceașcă roșie și apoi să-și miște brațul pentru a face acest lucru. VLA-urile sunt antrenate pe exemple care asociază imagini / video + instrucțiuni + urme de acțiuni reale (cum s-a mișcat de fapt un robot) și trebuie să ruleze rapid și în siguranță în timp real. LLM-urile sunt instruite pe colecții uriașe de text și se concentrează pe raționament și sarcini lingvistice. TL; DR LLM-urile gândesc și vorbesc în timp ce VLA văd, raționează și acționează. După cum puteți vedea, VLA sunt o completare majoră a LLM-urilor și vor permite în special următoarea inovație de 0 la 1 în economia generală, care va fi robotica. Majoritatea fondurilor de investiții alocă o mare parte din investițiile lor în acest sector, văzut ca următoarea evoluție logică în industria AI. Am făcut deja o postare cu ceva timp în urmă despre actualul lider pe piața cripto, @codecopenflow, care nu a strâns capital (lansare corectă), dar livrează produse de ultimă oră și se află în prezent la 23 de milioane de dolari FDV. Pentru informare, alți concurenți cripto au strâns 20 de milioane de dolari (@openmind_agi) la ceea ce este probabil un FDV de 200 până la 300 de milioane de dolari ++, în timp ce niciun produs sau comunitate nu a fost încă construit și livrat. Ceea ce face ca Codec să fie un proiect de top în sector este că abordează un blocaj crucial în robotică și AI, și anume dificultatea de a avea toate instrumentele AI să interacționeze împreună. Permiteți-mi să vă explic. Cea mai recentă versiune a lor, OPTR (operator), este un set de instrumente care ajută la construirea operatorilor capabili să interacționeze pe mai multe platforme, cum ar fi roboți, desktop-uri, browsere sau simulări. Obiectivul unui operator este să vadă, să raționeze și să acționeze (VLA) atât în lumea digitală (computere), cât și în cea fizică (roboți). Acest set de instrumente servește ca infrastructură de bază pentru echipele de roboți care doresc să-și testeze produsul și să îmbunătățească procesul general, oferind o experiență unificată în loc de altele separate pentru browsere web, simulări sau roboți. Acest lucru face ca operatorul să fie adaptabil și autonom, indiferent de mediul său. Deci, înțelegeți, va economisi mult timp pentru companiile și dezvoltatorii care anterior trebuiau să parcurgă manual fiecare pas și unde puteți economisi timp, puteți economisi bani. De asemenea, va permite Codec să-și construiască propriile proiecte de operator și să lanseze noi capacități relativ rapid pe piață, în special prin intermediul pieței lor. TL; DR: Probabil că ați văzut videoclipuri cu roboți care pliază șervețele, sortează cutii sau sar pe diverse elemente. Toți au fost instruiți pentru acest caz de utilizare foarte specific și, din păcate, o abilitate nu poate fi reutilizată într-un alt mediu, așa cum ar putea face un om. OPTR de la Codec rezolvă acest lucru făcând abilitățile transferabile între medii și situații, făcând instruirea și dezvoltarea mult mai rapide și mai ieftine pentru întreprinderi. Acesta este motivul pentru care Codec este atât de interesant în unificarea lumii digitale cu lumea fizică. $CODEC, codificat.

Limită superioară

Clasament

Favorite