一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

什麼是 $CODEC 機器人、操作員、遊戲？以上所有及更多。 Codec 的視覺-語言-行動 (VLA) 是一個框架無關的模型，因其獨特的能力能夠可視化錯誤，相較於 LLM，這使得它能夠應用於數十種用例。在過去的 12 個月中，我們看到 LLM 主要作為循環機制運作，受預定數據和回應模式驅動。因為它們是基於語音和文本構建的，LLM 在超越其訓練的語言上下文窗口方面能力有限。它們無法解釋感官輸入，如面部表情或實時情感提示，因為它們的推理受限於語言，而非感知。當今大多數代理結合了基於變壓器的 LLM 和視覺編碼器。它們通過截圖“看到”界面，解釋屏幕上的內容，並生成一系列動作、點擊、鍵入、滾動以遵循指示並完成任務。這就是為什麼 AI 尚未取代大類工作：LLM 看到的是截圖，而不是像素。它們無法理解環境的動態視覺語義，只能理解靜態畫面中可讀的內容。它們的典型工作流程是重複的：捕獲截圖，推理下一步行動，執行，然後捕獲另一幀並重複。這種感知-思考循環持續進行，直到任務完成或代理失敗。要真正實現通用化，AI 必須感知其環境，推理其狀態，並適當行動以達成目標，而不僅僅是解釋快照。我們已經擁有宏、RPA 機器人和自動化腳本，但它們很弱且不穩定。輕微的像素移動或佈局變更會打破流程並需要手動修補。當工作流程中的某些東西發生變化時，它們無法適應。這就是瓶頸。視覺-語言-行動 (VLA) Codec 的 VLA 代理運行在一個直觀但強大的循環中：感知、思考、行動。這些代理不僅僅是像大多數 LLM 一樣輸出文本，而是能夠看到其環境，決定該做什麼，然後執行。這一切都包裝成一個統一的管道，可以視覺化為三個核心層次：視覺代理首先通過視覺感知其環境。對於桌面操作員代理來說，這意味著捕獲當前狀態的截圖或視覺輸入（例如應用窗口或文本框）。VLA 模型的視覺組件解釋這一輸入，讀取屏幕上的文本並識別界面元素或物體。也就是說，代理的眼睛。語言然後是思考。根據視覺上下文（以及任何指示或目標），模型分析所需的行動。基本上，AI 像人一樣“思考”適當的回應。VLA 架構在內部合併了視覺和語言，因此代理可以理解彈出對話框在詢問是/否問題。然後，它將根據目標或提示決定正確的行動（例如，點擊“確定”）。作為代理的大腦，將感知的輸入映射到行動。行動最後，代理通過向環境輸出控制命令來行動。VLA 模型生成的不是文本，而是直接與系統互動的行動（例如鼠標點擊、鍵入或 API 調用）。在對話框示例中，代理將執行對“確定”按鈕的點擊。這閉合了循環：在行動後，代理可以視覺檢查結果並繼續感知-思考-行動的循環。行動是將它們從聊天框轉變為實際操作員的關鍵區別。用例正如我提到的，由於架構的原因，Codec 是敘事無關的。正如 LLM 不受限於它們可以生成的文本輸出，VLA 也不受限於它們可以完成的任務。機器人 VLA 代理不再依賴舊腳本或不完善的自動化，而是接收視覺輸入（攝像頭視頻或傳感器），將其傳遞給語言模型進行規劃，然後輸出實際的控制命令以移動或與世界互動。基本上，機器人看到它面前的東西，處理指令如“將可樂罐移到橙子旁邊”，弄清楚一切的位置，如何在不碰倒任何東西的情況下移動，並且不需要硬編碼。這與 Google 的 RT-2 或 PaLM-E 是同一類系統。大型模型將視覺和語言合併以創造現實世界的行動。CogAct 的 VLA 工作是一個很好的例子，機器人掃描雜亂的桌子，獲得自然提示，並運行完整的循環：物體識別、路徑規劃、運動執行。操作員在桌面和網絡環境中，VLA 代理基本上像數字工作者一樣運作。它們通過截圖或實時視頻“看到”屏幕，將其通過基於語言模型的推理層運行，以理解 UI 和任務提示，然後像人類一樣執行實際的鼠標和鍵盤控制。這個完整的循環，感知、思考、行動持續運行。因此，代理不僅僅是一次反應，而是積極導航界面，處理多步流程，而不需要任何硬編碼的腳本。該架構是一種 OCR 風格的視覺來讀取文本/按鈕/圖標，語義推理來決定該做什麼，以及可以點擊、滾動、鍵入等的控制層。這在錯誤處理中變得非常有趣。這些代理可以在行動後反思，並在某些事情未按預期進行時重新規劃。與 RPA 腳本不同，後者在 UI 略微變化時會中斷，例如按鈕位置移動或標籤被重新命名，VLA 代理可以使用視覺線索和語言理解適應新佈局。這使其在現實世界自動化中更具韌性，因為界面不斷變化。這是我在通過像 playwright 這樣的工具編寫自己的研究機器人時個人面臨的挑戰。遊戲遊戲是 VLA 代理可以發揮光彩的最明顯用例之一，將它們視為沉浸式 AI 玩家而非機器人。整個流程是相同的，代理看到遊戲畫面（幀、菜單、文本提示），推理它應該做什麼，然後使用鼠標、鍵盤或控制器輸入進行遊玩。它不專注於蛮力，這是 AI 學習如何像人類一樣玩遊戲。感知 + 思考 + 控制，所有這些都緊密結合。DeepMind 的 SIMA 項目通過將視覺-語言模型與預測層結合，並將其應用於《無人深空》和《我的世界》等遊戲，解鎖了這一點。僅僅通過觀察屏幕並遵循指示，代理就能完成抽象任務，如“建造營火”，通過鏈接正確的步驟，收集木材、找到火柴並使用庫存。它也不僅限於一個遊戲。它能在不同環境之間轉移這些知識。 VLA 遊戲代理不會被鎖定在一套規則中。相同的代理可以根據視覺和語言基礎適應完全不同的機制。由於它是基於 LLM 基礎架構構建的，它可以解釋自己在做什麼，遵循自然語言指示，或與玩家實時協作。我們距離擁有能夠適應你的遊玩風格和個性化的 AI 隊友並不遙遠，這一切都要歸功於 Codec。

9.22K