Hva er $CODEC Robotikk, operatører, spill? Alt det ovennevnte og mer. Codecs vision-language-action (VLA) er en rammeagnostisk modell, som gir mulighet for dusinvis av brukstilfeller på grunn av dens unike evne til å visualisere feil sammenlignet med LLM-er. I løpet av de siste 12 månedene har vi sett at LLM-er først og fremst fungerer som looping-mekanismer, drevet av forhåndsdefinerte data og responsmønstre. Fordi de er bygget på tale og tekst, har LLM-er en begrenset evne til å utvikle seg utover vinduet med språklig kontekst de er trent på. De kan ikke tolke sanseinntrykk, som ansiktsuttrykk eller emosjonelle signaler i sanntid, da resonnementet deres er bundet til språk, ikke persepsjon. De fleste agenter i dag kombinerer transformatorbaserte LLM-er med visuelle kodere. De "ser" grensesnittet gjennom skjermbilder, tolker hva som er på skjermen og genererer sekvenser av handlinger, klikk, tastetrykk, rulling for å følge instruksjoner og fullføre oppgaver. Dette er grunnen til at AI ikke har erstattet store kategorier av jobber ennå: LLM-er ser skjermbilder, ikke piksler. De forstår ikke den dynamiske visuelle semantikken i omgivelsene, bare hva som kan leses gjennom statiske rammer. Deres typiske arbeidsflyt er repeterende: ta et skjermbilde, resonnere om neste handling, utfør den, ta deretter et nytt bilde og gjenta. Denne oppfatte-tenke-sløyfen fortsetter til oppgaven er fullført eller agenten mislykkes. For å virkelig generalisere må AI oppfatte omgivelsene, resonnere om tilstanden og handle riktig for å oppnå mål, ikke bare tolke øyeblikksbilder. Vi har allerede makroer, RPA-roboter og automatiseringsskript, men de er svake og ustabile. En liten pikselforskyvning eller layoutendring bryter flyten og krever manuell oppdatering. De kan ikke tilpasse seg når noe endres i arbeidsflyten. Det er flaskehalsen. Visjon-Språk-Handling (VLA) Codecs VLA-agenter kjører på en intuitiv, men kraftig sløyfe: oppfatte, tenke, handle. I stedet for bare å spytte ut tekst som de fleste LLM-er, ser disse agentene miljøet, bestemmer hva de skal gjøre og deretter utfører. Alt er pakket i ett enhetlig datasamlebånd, som du kan visualisere i tre kjernelag: Visjon Agenten oppfatter først omgivelsene gjennom synet. For en stasjonær operatøragent betyr dette å ta et skjermbilde eller visuelle inndata av gjeldende tilstand (f.eks. et appvindu eller en tekstboks). VLA-modellens visjonskomponent tolker disse inndataene, leser tekst på skjermen og gjenkjenner grensesnittelementer eller objekter. Aka øynene til agenten. Språk Så kommer tankene. Gitt den visuelle konteksten (og eventuelle instruksjoner eller mål), analyserer modellen hvilken handling som kreves. I hovedsak "tenker" AI på riktig respons omtrent som en person ville gjort. VLA-arkitekturen slår sammen visjon og språk internt, slik at agenten for eksempel kan forstå at en popup-dialogboks stiller et ja/nei-spørsmål. Den vil da bestemme riktig handling (f.eks. klikk "OK") basert på målet eller ledeteksten. Fungerer som agentens hjerne, og kartlegger opplevde innspill til en handling. Handling Til slutt handler agenten ved å sende ut en kontrollkommando til miljøet. I stedet for tekst genererer VLA-modellen en handling (for eksempel et museklikk, tastetrykk eller API-kall) som samhandler direkte med systemet. I dialogeksemplet vil agenten utføre klikket på "OK" -knappen. Dette lukker sløyfen: etter handling kan agenten visuelt sjekke resultatet og fortsette oppfatte-tenke-handle-syklusen. Handlinger er nøkkelskilletegnet som gjør dem fra chattebokser til faktiske operatører. Bruksområder Som jeg nevnte, på grunn av arkitekturen, er Codec narrativ agnostisk. Akkurat som LLM ikke er begrenset av hvilke tekstutdata de kan produsere, er ikke VLA-er begrenset av hvilke oppgaver de kan fullføre. Robotics I stedet for å stole på gamle skript eller ufullkommen automatisering, tar VLA-agenter inn visuelle input (kamerafeed eller sensorer), sender det gjennom en språkmodell for planlegging, og sender deretter ut faktiske kontrollkommandoer for å bevege seg eller samhandle med verden. I utgangspunktet ser roboten hva som er foran den, behandler instruksjoner som "flytt Pepsi-boksen ved siden av appelsinen", finner ut hvor alt er, hvordan den skal bevege seg uten å velte noe, og gjør det uten behov for hardkoding. Dette er samme systemklasse som Googles RT-2 eller PaLM-E. Store modeller som slår sammen visjon og språk for å skape handlinger i den virkelige verden. CogActs VLA-arbeid er et godt eksempel, roboten skanner et rotete bord, får en naturlig melding og kjører en full sløyfe: objekt-ID, baneplanlegging, bevegelsesutførelse. Operatører I skrivebords- og nettmiljøet fungerer VLA-agenter i utgangspunktet som digitale arbeidere. De "ser" skjermen gjennom et skjermbilde eller live-feed, kjører det gjennom et resonnementslag bygget på en språkmodell for å forstå både brukergrensesnittet og oppgavemeldingen, og utfører deretter handlingene med ekte mus- og tastaturkontroll, som et menneske ville gjort. Denne fulle loopen, oppfatte, tenke, handle går kontinuerlig. Så agenten reagerer ikke bare én gang, den navigerer aktivt i grensesnittet og håndterer flertrinnsflyter uten å trenge noen hardkodede skript. Arkitekturen er en blanding av OCR-stilvisjon for å lese tekst/knapper/ikoner, semantisk resonnement for å bestemme hva som skal gjøres, og et kontrolllag som kan klikke, rulle, skrive osv. Der dette blir virkelig interessant er i feilhåndtering. Disse agentene kan reflektere etter handlinger og planlegge på nytt hvis noe ikke går som forventet. I motsetning til RPA-skript som brytes hvis et brukergrensesnitt endres litt, for eksempel en knapp som skifter posisjon eller en etikett som får nytt navn, kan en VLA-agent tilpasse seg det nye oppsettet ved hjelp av visuelle signaler og språkforståelse. Gjør den langt mer motstandsdyktig for automatisering i den virkelige verden der grensesnitt stadig endres. Noe jeg personlig har slitt med når jeg har kodet mine egne forskningsroboter gjennom verktøy som dramatiker. Gaming Gaming er et av de tydeligste brukstilfellene der VLA-agenter kan skinne, tenke på dem mindre som roboter og mer som oppslukende AI-spillere. Hele flyten er den samme, agenten ser spillskjermen (rammer, menyer, tekstmeldinger), begrunner om hva den skal gjøre, og spiller deretter ved hjelp av mus, tastatur eller kontrollerinnganger. Det er ikke fokusert på brute force, dette er AI som lærer å spille som et menneske ville gjort. Persepsjon + tenkning + kontroll, alt bundet sammen. DeepMinds SIMA-prosjekt har låst opp dette ved å kombinere en visjonsspråkmodell med et prediktivt lag og sluppet det inn i spill som No Man's Sky og Minecraft. Fra bare å se på skjermen og følge instruksjonene, kunne agenten fullføre abstrakte oppgaver som "bygge et bål" ved å lenke sammen de riktige trinnene, samle ved, finne fyrstikker og bruke inventar. Og det var ikke begrenset til bare én kamp heller. Den overførte denne kunnskapen mellom ulike miljøer. VLA-spillagenter er ikke låst til ett regelsett. Den samme agenten kan tilpasse seg helt forskjellige mekanikker, bare fra visjon og språkjording. Og fordi den er bygget på LLM-infrastruktur, kan den forklare hva den gjør, følge instruksjoner på naturlig språk midt i spillet eller samarbeide med spillere i sanntid. Vi er ikke langt unna å ha AI-lagkamerater som tilpasser seg spillestilen og personaliseringene dine, alt takket være Codec.
9,2K