Môi trường ảo cho các tác nhân vận hành: $CODEC Luận điểm chính của tôi về sự bùng nổ của AI luôn tập trung vào sự phát triển của các tác nhân vận hành. Nhưng để các tác nhân này thành công, chúng cần quyền truy cập sâu vào hệ thống, thực tế là cho phép chúng kiểm soát máy tính cá nhân và dữ liệu nhạy cảm của bạn, điều này đặt ra những lo ngại nghiêm trọng về bảo mật. Chúng ta đã thấy cách các công ty như OpenAI và các tập đoàn công nghệ lớn khác xử lý dữ liệu người dùng. Mặc dù hầu hết mọi người không quan tâm, nhưng những cá nhân có lợi ích lớn nhất từ các tác nhân vận hành, nhóm 1% hàng đầu, chắc chắn rất quan tâm. Cá nhân tôi, không có khả năng tôi sẽ cho một công ty như OpenAI quyền truy cập đầy đủ vào máy của mình, ngay cả khi điều đó mang lại hiệu suất tăng gấp 10 lần. Vậy tại sao lại là Codec? Kiến trúc của Codec tập trung vào việc khởi chạy các "máy tính để bàn đám mây" cách ly, theo yêu cầu cho các tác nhân AI. Cốt lõi của nó là một dịch vụ điều phối dựa trên Kubernetes (có tên mã là Captain) cung cấp các máy ảo nhẹ (VMs) bên trong các pod Kubernetes. Mỗi tác nhân có môi trường cách ly cấp hệ điều hành riêng (một phiên bản hệ điều hành Linux đầy đủ) nơi nó có thể chạy ứng dụng, trình duyệt hoặc bất kỳ mã nào, hoàn toàn cách ly khỏi các tác nhân khác và máy chủ. Kubernetes xử lý việc lập lịch, tự động mở rộng và tự phục hồi các pod của tác nhân, đảm bảo độ tin cậy và khả năng khởi động/tắt nhiều phiên bản tác nhân khi nhu cầu tải tăng. Môi trường thực thi tin cậy (TEEs) được sử dụng để bảo mật các VMs này, nghĩa là máy của tác nhân có thể được cách ly bằng mật mã, bộ nhớ và thực thi của nó có thể được bảo vệ khỏi hệ điều hành máy chủ hoặc nhà cung cấp đám mây. Điều này rất quan trọng đối với các nhiệm vụ nhạy cảm: ví dụ, một VM chạy trong một enclave có thể giữ các khóa API hoặc bí mật ví tiền điện tử một cách an toàn. Khi một tác nhân AI ("bộ não" dựa trên LLM) cần thực hiện hành động, nó gửi yêu cầu API đến dịch vụ Captain, sau đó khởi chạy hoặc quản lý pod VM của tác nhân. Quy trình làm việc: tác nhân yêu cầu một máy, Captain (thông qua Kubernetes) phân bổ một pod và gắn một volume lưu trữ (cho đĩa của VM). Tác nhân sau đó có thể kết nối vào VM của nó (thông qua kênh bảo mật hoặc giao diện streaming) để thực hiện lệnh. Captain cung cấp các điểm cuối cho tác nhân để thực thi lệnh shell, tải lên/tải xuống tệp, truy xuất nhật ký và thậm chí snapshot VM để khôi phục sau này. Thiết kế này cung cấp cho tác nhân một hệ điều hành đầy đủ để làm việc, nhưng với quyền truy cập được kiểm soát và kiểm toán. Vì nó được xây dựng trên Kubernetes, Codec có thể tự động mở rộng theo chiều ngang, nếu 100 tác nhân cần môi trường, nó có thể lập lịch 100 pod trên toàn bộ cluster và xử lý lỗi bằng cách khởi động lại các pod. VM của tác nhân có thể được trang bị các máy chủ MCP khác nhau (như một "cổng USB" cho AI). Ví dụ, module Conductor của Codec là một container chạy trình duyệt Chrome cùng với máy chủ MCP Microsoft Playwright để điều khiển trình duyệt. Điều này cho phép một tác nhân AI mở các trang web, nhấp vào liên kết, điền vào biểu mẫu và thu thập nội dung thông qua các cuộc gọi MCP tiêu chuẩn, như thể nó là một con người điều khiển trình duyệt. Các tích hợp MCP khác có thể bao gồm hệ thống tệp/terminal MCP (để cho phép tác nhân chạy lệnh CLI một cách an toàn) hoặc các MCP cụ thể cho ứng dụng (cho các API đám mây, cơ sở dữ liệu, v.v.). Về cơ bản, Codec cung cấp các "wrapper" cơ sở hạ tầng (VMs, enclaves, mạng) để các kế hoạch cấp cao của tác nhân có thể được thực hiện một cách an toàn trên phần mềm và mạng thực. Các trường hợp sử dụng Tự động hóa ví: Codec có thể nhúng ví hoặc khóa bên trong một VM được bảo vệ bởi TEE, cho phép một tác nhân AI tương tác với các mạng blockchain (giao dịch trên DeFi, quản lý tài sản tiền điện tử) mà không làm lộ các khóa bí mật. Kiến trúc này cho phép các tác nhân tài chính onchain thực hiện các giao dịch thực một cách an toàn, điều mà sẽ rất nguy hiểm trong một thiết lập tác nhân thông thường. Tagline của nền tảng này liệt kê rõ ràng hỗ trợ cho "ví" như một khả năng chính. Một tác nhân có thể, ví dụ, chạy CLI cho một ví Ethereum bên trong enclave của nó, ký các giao dịch và gửi chúng, với sự đảm bảo rằng nếu tác nhân hành xử sai, nó bị giới hạn trong VM của nó và các khóa không bao giờ rời khỏi TEE. Tự động hóa trình duyệt và web: Các tác nhân CodecFlow có thể điều khiển trình duyệt web đầy đủ trong VM của chúng. Ví dụ Conductor cho thấy một tác nhân khởi chạy Chrome và streaming màn hình của nó lên Twitch trong thời gian thực. Thông qua MCP Playwright, tác nhân có thể điều hướng các trang web, nhấp vào nút và thu thập dữ liệu giống như một người dùng thực. Điều này lý tưởng cho các nhiệm vụ như thu thập dữ liệu web sau khi đăng nhập, giao dịch web tự động hoặc kiểm tra ứng dụng web. Các framework truyền thống thường dựa vào các cuộc gọi API hoặc các script trình duyệt headless đơn giản; ngược lại, CodecFlow có thể chạy một trình duyệt thực với giao diện người dùng hiển thị, giúp dễ dàng xử lý các ứng dụng web phức tạp (ví dụ: với JavaScript nặng hoặc các thử thách CAPTCHA) dưới sự kiểm soát của AI. Tự động hóa GUI thực tế (Hệ thống cũ): Vì mỗi tác nhân có một hệ điều hành desktop thực tế, nó có thể tự động hóa các ứng dụng GUI cũ hoặc các phiên remote desktop, về cơ bản hoạt động như tự động hóa quy trình robot (RPA) nhưng được điều khiển bởi AI. Ví dụ, một tác nhân có thể mở một bảng tính Excel trong VM Windows của nó, hoặc giao diện với một ứng dụng terminal cũ không có API. Trang web của Codec đề cập rõ ràng đến việc cho phép "tự động hóa cũ". Điều này mở ra việc sử dụng AI để vận hành phần mềm không thể truy cập thông qua các API hiện đại, một nhiệm vụ sẽ rất khó khăn hoặc không an toàn nếu không có môi trường chứa. Tích hợp noVNC được bao gồm cho thấy các tác nhân có thể được quan sát hoặc điều khiển thông qua VNC, điều này hữu ích để giám sát AI điều khiển GUI. Mô phỏng quy trình làm việc SaaS: Các công ty thường có các quy trình phức tạp liên quan đến nhiều ứng dụng SaaS hoặc hệ thống cũ. Ví dụ, một nhân viên có thể lấy dữ liệu từ Salesforce, kết hợp nó với dữ liệu từ một ERP nội bộ, sau đó gửi email tóm tắt cho khách hàng. Codec có thể cho phép một tác nhân AI thực hiện toàn bộ chuỗi này bằng cách thực sự đăng nhập vào các ứng dụng này thông qua trình duyệt hoặc phần mềm khách trong VM của nó, giống như một con người. Điều quan trọng là, thông tin đăng nhập cho các ứng dụng này có thể được cung cấp cho VM một cách an toàn (và thậm chí được bao bọc trong TEE), vì vậy tác nhân có thể sử dụng chúng mà không bao giờ "nhìn thấy" thông tin đăng nhập dạng văn bản hoặc làm lộ chúng ra bên ngoài. Điều này có thể tăng tốc tự động hóa các nhiệm vụ văn phòng thường xuyên trong khi đáp ứng yêu cầu của IT rằng mỗi tác nhân hoạt động với quyền tối thiểu và khả năng kiểm toán đầy đủ (vì mọi hành động trong VM có thể được ghi lại hoặc ghi hình). Lộ trình - Ra mắt demo công khai vào cuối tháng - So sánh tính năng với các nền tảng tương tự khác (không có đối thủ cạnh tranh web3) - Tích hợp TAO - Hợp tác lớn với ngành game Về tính độc đáo, Codec được xây dựng trên nền tảng các công nghệ hiện có nhưng tích hợp chúng theo cách mới cho việc sử dụng tác nhân AI. Ý tưởng về môi trường thực thi cách ly không phải là mới (container, VM và TEE là tiêu chuẩn trong điện toán đám mây), nhưng áp dụng chúng cho các tác nhân AI tự động với một lớp API liền mạch (MCP) là cực kỳ mới lạ. Nền tảng này tận dụng các tiêu chuẩn và công cụ mở bất cứ khi nào có thể: nó sử dụng các máy chủ MCP như Playwright của Microsoft để điều khiển trình duyệt thay vì tái tạo bánh xe đó, và có kế hoạch hỗ trợ các micro-VM Firecracker của AWS để ảo hóa nhanh hơn. Nó cũng fork các giải pháp hiện có như noVNC để streaming desktop. Điều này chứng minh rằng dự án đang đứng trên nền tảng của công nghệ đã được chứng minh (Kubernetes, phần cứng enclave, thư viện mã nguồn mở), tập trung phát triển ban đầu vào logic kết nối và điều phối ("bí quyết" là cách tất cả hoạt động cùng nhau). Sự kết hợp giữa các thành phần mã nguồn mở và dịch vụ đám mây sắp ra mắt (được gợi ý bởi việc đề cập đến tiện ích token $CODEC và quyền truy cập sản phẩm công khai) có nghĩa là Codec sẽ sớm có thể truy cập dưới nhiều hình thức (cả dưới dạng dịch vụ và tự lưu trữ). Đội ngũ Moyai: 15+ năm kinh nghiệm phát triển, hiện đang dẫn đầu phát triển AI tại Elixir Games. lil’km: 5+ năm phát triển AI, hiện đang làm việc với HuggingFace trong dự án LeRobot. HuggingFace là một công ty robot lớn và Moyai làm việc với tư cách là trưởng nhóm AI tại Elixir Games (được hỗ trợ bởi Square Enix và Solanafdn). Tôi đã gọi video với toàn bộ đội ngũ và thực sự thích năng lượng mà họ mang lại. Bạn tôi, người đã giới thiệu họ cho tôi, cũng đã gặp tất cả họ tại Token2049 và chỉ có những điều tốt đẹp để nói. Suy nghĩ cuối cùng Vẫn còn rất nhiều điều cần đề cập, tôi sẽ để dành cho các cập nhật và bài viết trong kênh Telegram của mình. Tôi luôn tin rằng cơ sở hạ tầng đám mây là tương lai cho các tác nhân vận hành. Tôi luôn tôn trọng những gì Nuit đang xây dựng, nhưng Codec là dự án đầu tiên cho tôi thấy sự thuyết phục toàn diện mà tôi đang tìm kiếm. Đội ngũ rõ ràng là các kỹ sư hàng đầu. Họ đã nói thẳng rằng marketing không phải là thế mạnh của họ, có lẽ đó là lý do tại sao điều này chưa được chú ý. Tôi sẽ làm việc chặt chẽ với họ để giúp định hình chiến lược GTM thực sự phản ánh chiều sâu của những gì họ đang xây dựng. Với vốn hóa thị trường 4 triệu đô la và mức độ cơ sở hạ tầng này, nó cảm thấy bị định giá thấp một cách đáng kể. Nếu họ có thể cung cấp một sản phẩm khả dụng, tôi nghĩ nó có thể dễ dàng đánh dấu sự khởi đầu của chu kỳ cơ sở hạ tầng AI tiếp theo. Như mọi khi, có rủi ro và mặc dù tôi đã kiểm tra đội ngũ trong bí mật trong vài tuần qua, không có dự án nào hoàn toàn không có nguy cơ. Mục tiêu giá? Cao hơn nhiều.
21,27K