OpenAI только что подтвердила мой тезис о северной звезде для ИИ, выпустив своего агента-оператора. Это был не только мой руководящий тезис для $CODEC, но и для всех остальных инвестиций в ИИ, которые я делал, в том числе в начале года во время мании ИИ. Было много дискуссий с Codec по поводу робототехники, хотя у этой вертикали очень скоро появится свой собственный нарратив, основная причина, по которой я был так оптимистичен в отношении Codec с первого дня, заключается в том, как его архитектура обеспечивает работу операторов-агентов. Люди до сих пор недооценивают, какая доля рынка поставлена на карту при создании программного обеспечения, которое работает автономно, превосходя по производительности людей, не нуждаясь в постоянных подсказках или контроле. Я видел много сравнений с $NUIT. Во-первых, я хочу сказать, что я большой поклонник того, что создает Nuit, и желаю им только их успеха. Если вы наберете «nuit» в моем телеграмме, вы увидите, что еще в апреле я сказал, что если бы мне пришлось держать одну монету в течение нескольких месяцев, это был бы Nuit из-за моей дипломной работы. Nuit был самым многообещающим проектом оператора на бумаге, но после обширных исследований я обнаружил, что их архитектуре не хватает глубины, необходимой для того, чтобы оправдать крупные инвестиции или мою репутацию. Помня об этом, я уже знал об архитектурных пробелах в существующих командах операторов и активно искал проект, который бы их устранил. Вскоре после этого появился Codec (благодаря тому, что @0xdetweiler настоял на том, чтобы я углубился в них), и вот в чем разница между ними: $CODEC против $NUIT Архитектура кодека состоит из трех слоев; Машина, система и интеллект, которые разделяют инфраструктуру, интерфейс среды и логику искусственного интеллекта. Каждый агент оператора в Codec работает на собственной изолированной виртуальной машине или контейнере, что обеспечивает практически встроенную производительность и изоляцию сбоев. Такая многоуровневая структура означает, что компоненты могут масштабироваться или развиваться независимо друг от друга, не нарушая систему. Архитектура Nuit идет по другому пути, будучи более монолитной. Их стек вращается вокруг специализированного агента веб-браузера, который сочетает в себе синтаксический анализ, рассуждения ИИ и действия. Это означает, что они глубоко анализируют веб-страницы в структурированные данные для использования ИИ и полагаются на облачную обработку для выполнения сложных задач ИИ. Подход Codec к встраиванию облегченной модели Vision-Language-Action (VLA) в каждый агент означает, что он может работать полностью локально. Это не требует постоянного обращения в облако за инструкциями, что позволяет сократить задержки и избежать зависимости от времени безотказной работы и пропускной способности. Агент Nuit обрабатывает задачи, сначала преобразуя веб-страницы в семантический формат, а затем используя мозг LLM, чтобы выяснить, что делать, что со временем улучшается благодаря обучению с подкреплением. Хотя этот поток эффективен для веб-автоматизации, он зависит от интенсивной обработки ИИ на стороне облака и предопределенных структур страниц. Локальный интеллект устройств кодека означает, что решения принимаются ближе к данным, снижая накладные расходы и делая систему более устойчивой к неожиданным изменениям (без хрупких скриптов или предположений DOM). Операторы кодека следуют непрерывному циклу «воспринимать–думать–действовать». Машинный уровень транслирует окружающую среду (например, живое приложение или ленту робота) на интеллектуальный уровень через оптимизированные каналы системного уровня, давая ИИ «глаза» на текущее состояние. Затем VLA-модель агента интерпретирует визуальные элементы и инструкции вместе, чтобы принять решение о действии, которое системный уровень выполняет с помощью событий клавиатуры/мыши или управления роботом. Этот интегрированный цикл означает, что он адаптируется к реальным событиям, даже если пользовательский интерфейс меняется, вы не нарушите поток. Чтобы представить все это в более простой аналогии, представьте себе операторов Codec как самодостаточного сотрудника, который приспосабливается к неожиданностям на работе. Агент Nuit похож на сотрудника, которому нужно сделать паузу, описать ситуацию руководителю по телефону и дождаться инструкций. Не углубляясь в технические подробности, это должно дать вам общее представление о том, почему я выбрал кодек в качестве основной ставки на операторов. Да, у Nuit есть поддержка со стороны YC, стековой команды и S-уровня на github. Несмотря на то, что архитектура Codec была построена с учетом горизонтального масштабирования, это означает, что вы можете развертывать тысячи агентов параллельно без общей памяти или контекста выполнения между агентами. Команда Codec — это тоже не обычные разработчики. Их архитектура VLA открывает множество вариантов использования, что было невозможно с предыдущими моделями агентов из-за того, что они видели через пиксели, а не через скриншоты. Я мог бы продолжить, но я оставлю это для будущих постов.
Trissy
Trissy13 мая 2025 г.
Виртуальные среды для операторских агентов: $CODEC Моя основная тезис вокруг взрыва ИИ всегда был сосредоточен на росте операторских агентов. Но для того, чтобы эти агенты добились успеха, им требуется глубокий доступ к системе, что фактически предоставляет им контроль над вашим персональным компьютером и конфиденциальными данными, что вызывает серьезные проблемы безопасности. Мы уже видели, как компании, такие как OpenAI и другие технологические гиганты, обрабатывают пользовательские данные. Хотя большинству людей это не важно, те, кто может извлечь наибольшую выгоду от операторских агентов, топ 1%, абсолютно заботятся об этом. Лично я не дам компании, такой как OpenAI, полный доступ к моему компьютеру, даже если это означает 10-кратное увеличение производительности. Так почему же Codec? Архитектура Codec сосредоточена на запуске изолированных, по требованию "облачных рабочих столов" для ИИ агентов. В его основе лежит оркестрационная служба на базе Kubernetes (кодовое имя Captain), которая предоставляет легковесные виртуальные машины (VM) внутри подов Kubernetes. Каждый агент получает свою собственную изолированную на уровне ОС среду (полноценный экземпляр Linux OS), где он может запускать приложения, браузеры или любой код, полностью изолированный от других агентов и хоста. Kubernetes управляет планированием, авто-масштабированием и самовосстановлением этих подов агентов, обеспечивая надежность и возможность увеличения/уменьшения количества экземпляров агентов в зависимости от нагрузки. Доверенные среды выполнения (TEE) используются для защиты этих VM, что означает, что машина агента может быть криптографически изолирована, ее память и выполнение могут быть защищены от хостовой ОС или облачного провайдера. Это важно для чувствительных задач: например, VM, работающая в анклаве, может безопасно хранить API-ключи или секреты криптокошелька. Когда ИИ агент ("мозг" на базе LLM) должен выполнить действия, он отправляет API-запросы в службу Captain, которая затем запускает или управляет подом VM агента. Рабочий процесс: агент запрашивает машину, Captain (через Kubernetes) выделяет под и прикрепляет постоянный том (для диска VM). Агент может затем подключиться к своей VM (через защищенный канал или потоковый интерфейс) для выполнения команд. Captain предоставляет конечные точки для агента для выполнения команд оболочки, загрузки/выгрузки файлов, получения журналов и даже создания снимка VM для последующего восстановления. Этот дизайн предоставляет агенту полноценную операционную систему для работы, но с контролируемым, аудируемым доступом. Поскольку он построен на Kubernetes, Codec может автоматически масштабироваться горизонтально, если 100 агентам нужны среды, он может запланировать 100 подов по всему кластеру и справляться с отказами, перезапуская поды. VM агента может быть оснащена различными MCP серверами (как "USB-порт" для ИИ). Например, модуль Conductor Codec - это контейнер, который запускает браузер Chrome вместе с сервером Microsoft Playwright MCP для управления браузером. Это позволяет ИИ агенту открывать веб-страницы, нажимать на ссылки, заполнять формы и извлекать контент через стандартные вызовы MCP, как если бы это был человек, управляющий браузером. Другие интеграции MCP могут включать файловую систему/терминал MCP (чтобы позволить агенту безопасно выполнять команды CLI) или специфические для приложений MCP (для облачных API, баз данных и т.д.). По сути, Codec предоставляет инфраструктурные "обертки" (VM, анклавы, сети), чтобы высокоуровневые планы агентов могли безопасно выполняться на реальном программном обеспечении и сетях. Сценарии использования Автоматизация кошелька: Codec может встроить кошельки или ключи внутри защищенной TEE VM, позволяя ИИ агенту взаимодействовать с блокчейн-сетями (торговать на DeFi, управлять криптоактивами) без раскрытия секретных ключей. Эта архитектура позволяет финансовым агентам на блокчейне выполнять реальные транзакции безопасно, что было бы очень опасно в типичной настройке агента. Слоган платформы явно указывает поддержку "кошельков" как ключевую возможность. Агент мог бы, например, запустить CLI для Ethereum кошелька внутри своего анклава, подписывать транзакции и отправлять их, с уверенностью, что если агент ведет себя неправильно, он ограничен своей VM и ключи никогда не покидают TEE. Автоматизация браузера и веба: Агенты CodecFlow могут управлять полными веб-браузерами в своей VM. Пример Conductor демонстрирует, как агент запускает Chrome и транслирует его экран на Twitch в реальном времени. Через Playwright MCP агент может навигировать по сайтам, нажимать кнопки и извлекать данные так же, как и человек. Это идеально для задач, таких как веб-скрейпинг за логинами, автоматизированные веб-транзакции или тестирование веб-приложений. Традиционные фреймворки обычно полагаются на API-вызовы или простые скрипты безголовых браузеров; в отличие от этого, CodecFlow может запускать реальный браузер с видимым интерфейсом, что облегчает работу с сложными веб-приложениями (например, с тяжелым JavaScript или CAPTCHA) под управлением ИИ. Автоматизация реальных GUI (наследственные системы): Поскольку у каждого агента есть настоящая настольная ОС, он может автоматизировать наследственные GUI приложения или сеансы удаленного рабочего стола, фактически функционируя как автоматизация роботизированных процессов (RPA), но управляемая ИИ. Например, агент мог бы открыть электронную таблицу Excel в своей Windows VM или взаимодействовать со старым терминальным приложением, у которого нет API. Сайт Codec упоминает возможность "наследственной автоматизации" явно. Это открывает использование ИИ для работы с программным обеспечением, которое недоступно через современные API, задача, которая была бы очень сложной или небезопасной без изолированной среды. Включенная интеграция noVNC предполагает, что агенты могут наблюдаться или управляться через VNC, что полезно для мониторинга ИИ, управляющего GUI. Симуляция рабочих процессов SaaS: Компании часто имеют сложные процессы, которые включают несколько приложений SaaS или наследственные системы. Например, сотрудник может взять данные из Salesforce, объединить их с данными из внутренней ERP, а затем отправить клиенту сводку по электронной почте. Codec может позволить ИИ агенту выполнить всю эту последовательность, фактически входя в эти приложения через браузер или клиентское программное обеспечение в своей VM, как это сделал бы человек. Это похоже на RPA, но с поддержкой LLM, который может принимать решения и справляться с изменчивостью. Важно, что учетные данные для этих приложений могут быть предоставлены VM безопасно (и даже заключены в TEE), чтобы агент мог использовать их, не "видя" открытые учетные данные или не раскрывая их внешне. Это может ускорить автоматизацию рутинных задач бэк-офиса, удовлетворяя ИТ, что каждый агент работает с минимальными привилегиями и полной аудируемостью (поскольку каждое действие в VM может быть записано или зафиксировано). Дорожная карта - Запуск публичной демонстрации в конце месяца - Сравнение функций с другими аналогичными платформами (нет конкурента в web3) - Интеграция TAO - Крупное партнерство в игровой индустрии С точки зрения оригинальности, Codec построен на основе существующих технологий, но интегрирует их новым способом для использования ИИ агентов. Идея изолированных сред выполнения не нова (контейнеры, VM и TEE являются стандартом в облачных вычислениях), но применение их к автономным ИИ агентам с бесшовным API слоем (MCP) является крайне новаторским. Платформа использует открытые стандарты и инструменты, где это возможно: она использует MCP серверы, такие как Playwright от Microsoft для управления браузером, вместо того, чтобы изобретать это колесо заново, и планирует поддерживать микро-VM Firecracker от AWS для более быстрой виртуализации. Она также форкнула существующие решения, такие как noVNC для потоковой передачи рабочих столов. Это демонстрирует, что проект стоит на основах проверенных технологий (Kubernetes, аппаратное обеспечение анклавов, библиотеки с открытым исходным кодом), сосредотачивая свое оригинальное развитие на логике "клея" и оркестрации ("секретный соус" - это то, как все это работает вместе). Комбинация компонентов с открытым исходным кодом и предстоящей облачной службы (намек на упоминание утилиты токена $CODEC и публичного доступа к продукту) означает, что Codec вскоре будет доступен в нескольких формах (как услуга и самохостинг). Команда Moyai: более 15 лет опыта разработки, в настоящее время возглавляет разработку ИИ в Elixir Games. lil’km: более 5 лет разработчик ИИ, в настоящее время работает с HuggingFace над проектом LeRobot. HuggingFace - это крупная робототехническая компания, а Moyai работает в качестве главы ИИ в Elixir Games (поддерживается Square Enix и solanafdn). Я лично общался с всей командой по видеосвязи и действительно понравилась энергия, которую они привносят. Мой друг, который поставил их на мой радар, также встретился с ними на Token2049 и только хорошо отзывался о них. Заключительные мысли Еще многое предстоит обсудить, что я сохраню для будущих обновлений и постов в моем Telegram-канале. Я давно верю, что облачная инфраструктура - это будущее для операторских агентов. Я всегда уважал то, что строит Nuit, но Codec - это первый проект, который показал мне полную уверенность в стеке, которую я искал. Команда явно топовые инженеры. Они открыто заявили, что маркетинг не их сильная сторона, что, вероятно, является причиной, почему это прошло незамеченным. Я буду тесно работать с ними, чтобы помочь сформировать стратегию GTM, которая действительно отражает глубину того, что они строят. С рыночной капитализацией в $4 млн и таким уровнем инфраструктуры, это кажется сильно недооцененным. Если они смогут предоставить пригодный для использования продукт, я думаю, это может легко ознаменовать начало следующего цикла инфраструктуры ИИ. Как всегда, есть риск, и хотя я проверял команду в тайне в течение последних нескольких недель, ни один проект никогда не является полностью защищенным от мошенничества. Целевые цены? Намного выше.
Вкратце о том, почему я выбрал Codec > Nuit для операторов: Кодек использует трехуровневую архитектуру (машина, система, интеллект), что позволяет создавать изолированные высокопроизводительные агенты со встроенным управлением. Каждый агент кодека выполняется локально с использованием цикла Vision-Language-Action (VLA), что сокращает задержку и повышает надежность. Модель Nuit зависит от синтаксического анализа браузера + облачных вызовов ИИ, что ограничивает гибкость и вносит хрупкость. Кодек горизонтально масштабируется для тысяч агентов, без общего состояния и отказоустойчивой модульности.
2,88K