Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

CodecFlow

Уровень выполнения для операторов ИИ и робототехники на @Solana CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump

VLAs все еще очень новы, и многим людям трудно понять разницу между VLAs и LLMs. Вот глубокое погружение в то, как эти AI-системы различаются в рассуждениях, восприятии и действиях. Часть 1. Давайте разберем ключевые отличия и то, как AI-агенты, обернутые вокруг LLM, отличаются от операторов, использующих модели VLA: 1. Восприятие: Как они воспринимают мир Агент (LLM): Обрабатывает текст или структурированные данные, например, JSON, API и иногда изображения. Это как мозг, работающий с чистыми, абстрактными входными данными. Подумайте о чтении руководства или разборе таблицы. Отлично подходит для структурированных сред, но ограничен тем, что ему подают. Оператор (VLA): Видит сырые, реальные пиксели с камер, плюс данные датчиков (например, касание, положение) и проприоцепцию (осознание собственного движения). Это как навигация по миру с помощью глаз и чувств, процветая в динамичных, беспорядочных условиях, таких как пользовательские интерфейсы или физические пространства. 2. Действие: Как они взаимодействуют Агент: Действует, вызывая функции, инструменты или API. Представьте, что это менеджер, отправляющий точные инструкции, такие как "забронировать рейс через Expedia API". Это целенаправленно, но зависит от заранее подготовленных инструментов и четких интерфейсов. Оператор: Выполняет непрерывные, низкоуровневые действия, такие как перемещение курсора мыши, набор текста или управление суставами робота. Это как опытный работник, непосредственно манипулирующий окружающей средой, идеально подходит для задач, требующих точности в реальном времени. 3. Контроль: Как они принимают решения Агент: Следует медленному, рефлексивному циклу: план, вызов инструмента, оценка результата, повторение. Он ограничен токенами (ограничен обработкой текста) и сетью (ожидание ответов API). Это делает его методичным, но медленным для задач в реальном времени. Оператор: Работает, принимая пошаговые решения в плотном цикле обратной связи. Подумайте о геймере, мгновенно реагирующем на то, что на экране. Эта скорость позволяет плавному взаимодействию, но требует надежной обработки в реальном времени. 4. Данные для обучения: Что питает их обучение Агент: Обучен на обширных текстовых корпусах, инструкциях, документации или наборах данных RAG (Увеличенное Генерирование Извлечений). Он учится на книгах, коде или часто задаваемых вопросах, отлично разбираясь в рассуждениях на основе структурированных знаний. Оператор: Учится на демонстрациях (например, видео людей, выполняющих задачи), логах телеприсутствия или сигналах вознаграждения. Это как обучение через наблюдение и практику, идеально подходит для задач, где явные инструкции редки. 5. Режимы отказа: Где они ломаются Агент: Склонен к галлюцинациям (выдумыванию ответов) или хрупким долгосрочным планам, которые разваливаются, если один шаг не удается. Это как стратег, который слишком много думает или неправильно интерпретирует ситуацию. Оператор: Сталкивается с изменением ковариат (когда обучающие данные не соответствуют условиям реального мира) или накопительными ошибками в управлении (маленькие ошибки накапливаются). Это как водитель, теряющий контроль на незнакомой дороге. 6. Инфраструктура: Технология за ними Агент: Полагается на подсказку/маршрутизатор, чтобы решить, какие инструменты вызывать, реестр инструментов для доступных функций и память/RAG для контекста. Это модульная настройка, как командный центр, организующий задачи. Оператор: Нуждается в каналах ввода видео, сервере действий для управления в реальном времени, защитном щите для предотвращения вредных действий и буфере воспроизведения для хранения опыта. Это высокопроизводительная система, созданная для динамичных условий. 7. Где каждый блестит: Их сильные стороны Агент: Превосходит в рабочих процессах с чистыми API (например, автоматизация бизнес-процессов), рассуждениях по документам (например, резюмирование отчетов) или генерации кода. Это ваш выбор для структурированных, высокоуровневых задач. Оператор: Превосходит в беспорядочных, без API средах, таких как навигация по громоздким пользовательским интерфейсам, управление роботами или выполнение игровых задач. Если это связано с взаимодействием в реальном времени с непредсказуемыми системами, VLA - король. 8. Ментальная модель: Планировщик + Исполнитель Подумайте о LLM Агенте как о планировщике: он разбивает сложные задачи на четкие, логические цели. Оператор VLA - это исполнитель, который выполняет эти цели, непосредственно взаимодействуя с пикселями или физическими системами. Проверяющий (другая система или агент) контролирует результаты, чтобы обеспечить успех. $CODEC

Codecflow Optr предлагает единый подход к созданию агентов, которые видят, рассуждают и действуют в цифровых и физических средах. Независимо от того, автоматизируют ли они рабочие процессы на настольных компьютерах, управляют ли роботизированными руками или проводят тестирование в симуляции, они используют одну и ту же ментальную модель и примитивы.

Падения на бычьем рынке предназначены для покупки, особенно в проектах с большими катализаторами. Мы все знаем, что ИИ является нарративом этого цикла, начатым ai16z и Virtuals в прошлом году. Моя ставка заключается в том, что рынок сосредоточится на более сложных и продвинутых технологиях, таких как VLA, и позвольте мне объяснить, почему. LLM (Большие Языковые Модели) в основном читают и пишут текст: они отлично объясняют, планируют и генерируют инструкции, но сами по себе не управляют моторами и не взаимодействуют с физическим миром (как вы могли заметить с chatgpt). VLA (Модели Действия Языка Визуализации) отличаются от LLM, так как они являются мультимодальными системами, которые смотрят на вещи (визуализация), понимают инструкции (язык) и непосредственно производят действия. Это похоже на то, как вы говорите роботу поднять красный стакан, а затем он двигает своей рукой, чтобы сделать это. VLA обучаются на примерах, которые связывают изображения/видео + инструкции + реальные следы действий (как на самом деле двигался робот), и они должны работать быстро и безопасно в реальном времени. LLM, в свою очередь, обучаются на огромных текстовых коллекциях и сосредоточены на задачах рассуждения и языка. Кратко: LLM думают и говорят, в то время как VLA видят, рассуждают и действуют. Как вы видите, VLA являются значительным дополнением к LLM и заметно позволят осуществить следующую инновацию от 0 до 1 в экономике, которая будет связана с робототехникой. Большинство инвестиционных фондов выделяют значительную часть своих инвестиций в этот сектор, который рассматривается как следующая логическая эволюция в индустрии ИИ. Я уже делал пост некоторое время назад о текущем лидере на крипторынке, @codecopenflow, который не привлек капитал (честный запуск), но уже поставляет передовые продукты и в настоящее время оценивается в 23 миллиона долларов FDV. Для информации, другие крипто-конкуренты привлекли 20 миллионов долларов ( @openmind_agi) при вероятной оценке FDV от 200 до 300 миллионов долларов ++, в то время как ни один продукт или сообщество еще не было создано и запущено. Что делает Codec ведущим проектом в этом секторе, так это то, что они решают критическую проблему в робототехнике и ИИ, а именно сложность взаимодействия всех инструментов ИИ. Позвольте мне объяснить. Их последний релиз, OPTR (оператор), представляет собой набор инструментов, который помогает создавать операторов, способных взаимодействовать на нескольких платформах, таких как роботы, настольные компьютеры, браузеры или симуляции. Цель оператора — видеть, рассуждать и действовать (VLA) как в цифровом (компьютеры), так и в физическом (роботы) мирах. Этот набор инструментов служит основной инфраструктурой для робототехнических команд, стремящихся протестировать свой продукт и улучшить общий процесс, предоставляя единый опыт вместо отдельных для веб-браузеров, симуляций или роботов. Это, по сути, делает оператора адаптивным и автономным независимо от его окружения. Так что вы понимаете, это сэкономит много времени для компаний и разработчиков, которые ранее должны были проходить каждый шаг вручную, и где можно сэкономить время, можно сэкономить деньги. Это также позволит Codec создавать свои собственные проекты операторов и быстро выводить новые возможности на рынок, в частности через их рынок. Кратко: Вы, вероятно, видели видео с роботами, складывающими ткани, сортирующими коробки или прыгающими по различным элементам. Все они были обучены для этого очень конкретного случая использования, и, к сожалению, один навык не может быть использован в другой среде, как это может сделать человек. OPTR от Codec решает эту проблему, делая навыки переносимыми между средами и ситуациями, что значительно ускоряет и удешевляет обучение и разработку для предприятий. Вот почему Codec так интересен в объединении цифрового мира с физическим миром. $CODEC, Coded.

Топ

Рейтинг

Избранное