Co je $CODEC Robotika, operátoři, hry? To vše a ještě více. Vision-language-action (VLA) kodeku je rámcově agnostický model, který umožňuje desítky případů použití díky své jedinečné schopnosti vizualizovat chyby ve srovnání s LLM. Během posledních 12 měsíců jsme viděli, že LLM fungují především jako mechanismy smyčky, které jsou řízeny předem definovanými daty a vzorci odezvy. Protože jsou LLM postaveny na řeči a textu, mají omezenou schopnost vyvíjet se za okno lingvistického kontextu, na kterém jsou trénovány. Nemohou interpretovat smyslové vstupy, jako jsou výrazy obličeje nebo emocionální podněty v reálném čase, protože jejich uvažování je vázáno na jazyk, nikoli na vnímání. Většina agentů dnes kombinuje LLM založené na transformátorech s vizuálními kodéry. "Vidí" rozhraní prostřednictvím snímků obrazovky, interpretují, co je na obrazovce, a generují sekvence akcí, kliknutí, stisků kláves, posouvání podle pokynů a plnění úkolů. To je důvod, proč umělá inteligence ještě nenahradila velké kategorie pracovních míst: LLM vidí snímky obrazovky, ne pixely. Nerozumí dynamické vizuální sémantice prostředí, pouze tomu, co je čitelné prostřednictvím statických snímků. Jejich typický pracovní postup se opakuje: pořiďte snímek obrazovky, zdůvodněte další akci, proveďte ji, poté pořiďte další snímek a opakujte. Tato smyčka vnímání a myšlení pokračuje, dokud není úloha dokončena nebo dokud agent neselže. Aby bylo možné skutečně zobecnit, musí umělá inteligence vnímat své prostředí, uvažovat o svém stavu a vhodně jednat k dosažení cílů, nejen interpretovat snímky. Už máme makra, RPA boty a automatizační skripty, ale jsou slabé a nestabilní. Mírný posun pixelů nebo změna rozvržení přeruší tok a vyžaduje ruční záplatování. Nemohou se přizpůsobit, když se v pracovním postupu něco změní. To je úzké hrdlo. Vize-jazyk-akce (VLA) Agenti VLA v Codecu běží na intuitivní, ale výkonné smyčce: vnímat, myslet, jednat. Místo toho, aby jen chrlili text jako většina LLM, tito agenti vidí jeho prostředí, rozhodnou se, co udělají, a poté jej provedou. To vše je zabaleno do jednoho sjednoceného kanálu, který můžete zobrazit do tří základních vrstev: Vidění Jednající nejprve vnímá své okolí prostřednictvím zraku. V případě desktopového operátora to znamená zachycení snímku obrazovky nebo vizuálního vstupu aktuálního stavu (např. okna aplikace nebo textového pole). Komponenta vidění modelu VLA interpretuje tento vstup, čte text na obrazovce a rozpoznává prvky nebo objekty rozhraní. Alias oči agenta. Jazyk Pak přichází na řadu myšlení. S ohledem na vizuální kontext (a všechny pokyny nebo cíle) model analyzuje, jaká akce je vyžadována. Umělá inteligence v podstatě "přemýšlí" o vhodné reakci podobně jako člověk. Architektura VLA interně slučuje vidění a jazyk, takže agent může například pochopit, že vyskakovací dialogové okno klade otázku ano/ne. Poté rozhodne o správné akci (např. kliknutím na "OK") na základě cíle nebo výzvy. Slouží jako mozek agenta, mapuje vnímané vstupy do akce. Akce Nakonec agent jedná tak, že do prostředí odešle řídicí příkaz. Místo textu model VLA generuje akci (například kliknutí myší, stisk klávesy nebo volání rozhraní API), která přímo komunikuje se systémem. V příkladu dialogu by agent provedl kliknutí na tlačítko "OK". Tím se smyčka uzavře: po akci může agent vizuálně zkontrolovat výsledek a pokračovat v cyklu vnímání – myšlení – jednání. Akce jsou oddělovačem kláves, který je mění z chat boxů na skutečné operátory. Případy použití Jak jsem zmínil, vzhledem k architektuře je Codec narativní agnostic. Stejně jako LLM nejsou omezeni tím, jaké textové výstupy mohou vyprodukovat, VLA nejsou omezeni tím, jaké úkoly mohou dokončit. Robotika Místo toho, aby se agenti VLA spoléhali na staré skripty nebo nedokonalou automatizaci, přijímají vizuální vstup (přenos z kamery nebo senzory), předávají jej jazykovému modelu pro plánování a poté vydávají skutečné řídicí příkazy pro pohyb nebo interakci se světem. Robot v podstatě vidí, co je před ním, zpracovává pokyny jako "přesuňte plechovku Pepsi vedle pomeranče", zjistí, kde co je, jak se pohybovat, aniž by se něco převrhlo, a dělá to bez nutnosti pevného kódování. Jedná se o stejnou třídu systému jako RT-2 nebo PaLM-E od Googlu. Velké modely, které spojují vizi a jazyk a vytvářejí akce v reálném světě. Dobrým příkladem je práce VLA společnosti CogAct, robot prohledá přeplněnou tabulku, dostane přirozenou výzvu a spustí celou smyčku: ID objektu, plánování cesty, provedení pohybu. Operátoři V desktopovém a webovém prostředí fungují agenti VLA v podstatě jako digitální pracovníci. "Vidí" obrazovku prostřednictvím snímku obrazovky nebo živého přenosu, provedou ji vrstvou uvažování postavenou na jazykovém modelu, aby porozuměli uživatelskému rozhraní i úkolovému příkazu, a poté provádějí akce pomocí skutečného ovládání myší a klávesnicí, jako by to dělal člověk. Tato plná smyčka, vnímání, myšlení, akt běží nepřetržitě. Agent tedy nereaguje pouze jednou, ale aktivně se pohybuje v rozhraní a zpracovává více krokových toků, aniž by potřeboval pevně zakódované skripty. Architektura je kombinací vidění ve stylu OCR pro čtení textu/tlačítek/ikon, sémantického uvažování pro rozhodování o tom, co dělat, a ovládací vrstvy, která může klikat, posouvat, psát atd. Kde se to stává opravdu zajímavým, je zpracování chyb. Tito agenti mohou reflektovat následné akce a přeplánovat, pokud něco nejde podle očekávání. Na rozdíl od skriptů RPA, které se přeruší, pokud se uživatelské rozhraní mírně změní, například při změně polohy tlačítka nebo přejmenování popisku, se agent VLA může přizpůsobit novému rozvržení pomocí vizuálních podnětů a porozumění jazyku. Díky tomu je mnohem odolnější pro automatizaci v reálném světě, kde se rozhraní neustále mění. Něco, s čím jsem se osobně potýkal při kódování svých vlastních výzkumných robotů pomocí nástrojů, jako je dramatik. Hraní Hraní her je jedním z nejjasnějších případů použití, kde mohou agenti VLA zazářit, přemýšlet o nich méně jako o botech a více jako o pohlcujících hráčích s umělou inteligencí. Celý postup je stejný, agent vidí herní obrazovku (rámce, menu, textové výzvy), důvody, co má dělat, a poté hraje pomocí vstupů myši, klávesnice nebo ovladače. Není to zaměřeno na hrubou sílu, je to umělá inteligence, která se učí, jak hrát jako člověk. Vnímání + myšlení + kontrola, vše propojené. Projekt SIMA společnosti DeepMind to odemkl kombinací modelu jazyka vidění s prediktivní vrstvou a vložil jej do her jako No Man's Sky a Minecraft. Pouhým sledováním obrazovky a dodržováním pokynů mohl agent plnit abstraktní úkoly, jako je "rozdělat táborák", a to zřetězením správných kroků, sběrem dřeva, hledáním zápalek a používáním inventáře. A nebylo to omezeno jen na jednu hru. Přenášela tyto znalosti mezi různými prostředími. Herní agenti VLA nejsou vázáni na jednu sadu pravidel. Stejný agent se může přizpůsobit zcela odlišným mechanikám, pouze z hlediska vidění a jazykových základů. A protože je postaven na infrastruktuře LLM, může vysvětlit, co dělá, řídit se pokyny v přirozeném jazyce uprostřed hry nebo spolupracovat s hráči v reálném čase. Nejsme daleko od toho, abychom měli spoluhráče s umělou inteligencí, kteří se přizpůsobí vašemu hernímu stylu a personalizacím, a to vše díky kodeku.
9,18K