熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
什麼是 $CODEC
機器人、操作員、遊戲?
以上所有及更多。
Codec 的視覺-語言-行動 (VLA) 是一個框架無關的模型,因其獨特的能力能夠可視化錯誤,相較於 LLM,這使得它能夠應用於數十種用例。
在過去的 12 個月中,我們看到 LLM 主要作為循環機制運作,受預定數據和回應模式驅動。
因為它們是基於語音和文本構建的,LLM 在超越其訓練的語言上下文窗口方面能力有限。它們無法解釋感官輸入,如面部表情或實時情感提示,因為它們的推理受限於語言,而非感知。
當今大多數代理結合了基於變壓器的 LLM 和視覺編碼器。它們通過截圖“看到”界面,解釋屏幕上的內容,並生成一系列動作、點擊、鍵入、滾動以遵循指示並完成任務。
這就是為什麼 AI 尚未取代大類工作:LLM 看到的是截圖,而不是像素。它們無法理解環境的動態視覺語義,只能理解靜態畫面中可讀的內容。
它們的典型工作流程是重複的:捕獲截圖,推理下一步行動,執行,然後捕獲另一幀並重複。這種感知-思考循環持續進行,直到任務完成或代理失敗。
要真正實現通用化,AI 必須感知其環境,推理其狀態,並適當行動以達成目標,而不僅僅是解釋快照。
我們已經擁有宏、RPA 機器人和自動化腳本,但它們很弱且不穩定。輕微的像素移動或佈局變更會打破流程並需要手動修補。當工作流程中的某些東西發生變化時,它們無法適應。這就是瓶頸。
視覺-語言-行動 (VLA)
Codec 的 VLA 代理運行在一個直觀但強大的循環中:感知、思考、行動。這些代理不僅僅是像大多數 LLM 一樣輸出文本,而是能夠看到其環境,決定該做什麼,然後執行。這一切都包裝成一個統一的管道,可以視覺化為三個核心層次:
視覺
代理首先通過視覺感知其環境。對於桌面操作員代理來說,這意味著捕獲當前狀態的截圖或視覺輸入(例如應用窗口或文本框)。VLA 模型的視覺組件解釋這一輸入,讀取屏幕上的文本並識別界面元素或物體。也就是說,代理的眼睛。
語言
然後是思考。根據視覺上下文(以及任何指示或目標),模型分析所需的行動。基本上,AI 像人一樣“思考”適當的回應。VLA 架構在內部合併了視覺和語言,因此代理可以理解彈出對話框在詢問是/否問題。然後,它將根據目標或提示決定正確的行動(例如,點擊“確定”)。作為代理的大腦,將感知的輸入映射到行動。
行動
最後,代理通過向環境輸出控制命令來行動。VLA 模型生成的不是文本,而是直接與系統互動的行動(例如鼠標點擊、鍵入或 API 調用)。在對話框示例中,代理將執行對“確定”按鈕的點擊。這閉合了循環:在行動後,代理可以視覺檢查結果並繼續感知-思考-行動的循環。行動是將它們從聊天框轉變為實際操作員的關鍵區別。
用例
正如我提到的,由於架構的原因,Codec 是敘事無關的。正如 LLM 不受限於它們可以生成的文本輸出,VLA 也不受限於它們可以完成的任務。
機器人
VLA 代理不再依賴舊腳本或不完善的自動化,而是接收視覺輸入(攝像頭視頻或傳感器),將其傳遞給語言模型進行規劃,然後輸出實際的控制命令以移動或與世界互動。
基本上,機器人看到它面前的東西,處理指令如“將可樂罐移到橙子旁邊”,弄清楚一切的位置,如何在不碰倒任何東西的情況下移動,並且不需要硬編碼。
這與 Google 的 RT-2 或 PaLM-E 是同一類系統。大型模型將視覺和語言合併以創造現實世界的行動。CogAct 的 VLA 工作是一個很好的例子,機器人掃描雜亂的桌子,獲得自然提示,並運行完整的循環:物體識別、路徑規劃、運動執行。
操作員
在桌面和網絡環境中,VLA 代理基本上像數字工作者一樣運作。它們通過截圖或實時視頻“看到”屏幕,將其通過基於語言模型的推理層運行,以理解 UI 和任務提示,然後像人類一樣執行實際的鼠標和鍵盤控制。
這個完整的循環,感知、思考、行動持續運行。因此,代理不僅僅是一次反應,而是積極導航界面,處理多步流程,而不需要任何硬編碼的腳本。該架構是一種 OCR 風格的視覺來讀取文本/按鈕/圖標,語義推理來決定該做什麼,以及可以點擊、滾動、鍵入等的控制層。
這在錯誤處理中變得非常有趣。這些代理可以在行動後反思,並在某些事情未按預期進行時重新規劃。與 RPA 腳本不同,後者在 UI 略微變化時會中斷,例如按鈕位置移動或標籤被重新命名,VLA 代理可以使用視覺線索和語言理解適應新佈局。這使其在現實世界自動化中更具韌性,因為界面不斷變化。
這是我在通過像 playwright 這樣的工具編寫自己的研究機器人時個人面臨的挑戰。
遊戲
遊戲是 VLA 代理可以發揮光彩的最明顯用例之一,將它們視為沉浸式 AI 玩家而非機器人。整個流程是相同的,代理看到遊戲畫面(幀、菜單、文本提示),推理它應該做什麼,然後使用鼠標、鍵盤或控制器輸入進行遊玩。
它不專注於蛮力,這是 AI 學習如何像人類一樣玩遊戲。感知 + 思考 + 控制,所有這些都緊密結合。DeepMind 的 SIMA 項目通過將視覺-語言模型與預測層結合,並將其應用於《無人深空》和《我的世界》等遊戲,解鎖了這一點。僅僅通過觀察屏幕並遵循指示,代理就能完成抽象任務,如“建造營火”,通過鏈接正確的步驟,收集木材、找到火柴並使用庫存。它也不僅限於一個遊戲。它能在不同環境之間轉移這些知識。
VLA 遊戲代理不會被鎖定在一套規則中。相同的代理可以根據視覺和語言基礎適應完全不同的機制。由於它是基於 LLM 基礎架構構建的,它可以解釋自己在做什麼,遵循自然語言指示,或與玩家實時協作。
我們距離擁有能夠適應你的遊玩風格和個性化的 AI 隊友並不遙遠,這一切都要歸功於 Codec。

9.22K
熱門
排行
收藏