Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Santiago
Компьютерный учёный. В https://t.co/THCAAZcBMu я преподаю жёсткую инженерию искусственного интеллекта и машинного обучения. YouTube: https://t.co/pROi08OZYJ
Одна вещь, с которой агенты LLM не справляются хорошо:
Любой старомодный чат-бот может следовать сценарию, в то время как агенты LLM склонны выходить за рамки и заводить клиентов в странные разговоры.
Но, конечно, старые чат-боты кажутся роботизированными, и клиенты не хотят с ними общаться.
Они надежны, но людям они не нравятся,
Агенты LLM — это противоположность.
Они гибкие и адаптивные, но могут сказать что угодно. Вы буквально находитесь в одном галлюцинационном шаге от катастрофы.
Ребята из Parlant делают что-то действительно умное с их новой версией: вы можете создать агента с лучшими чертами обоих миров.
Агент может динамически переключаться между агентом LLM и строгим режимом в зависимости от того, что происходит в разговоре.
Риск не равномерно распределен по разговору:
1. Когда клиент задает неформальный вопрос о продукте, Parlant использует LLM для генерации плавного и полезного ответа.
2. Когда клиент запрашивает возврат, Parlant включает строгий режим, чтобы вернуть только одобренные, контекстуально обоснованные шаблоны ответов.
Вы контролируете "режим композиции" агента на основе наблюдений за естественным языком о текущем состоянии разговора.
Это действительно классная идея. Она должна значительно улучшить текущее состояние дел в чат-ботах.
Вы можете ознакомиться с этим здесь:
Прилагаемая диаграмма показывает, как работает динамический режим композиции.
59
Одним из первых агентов, которых я создал, был крайне простым:
Он извлекал информацию из векторного хранилища, форматировал её в HTML и отправлял пользователю по электронной почте.
Не может быть ничего проще, и всё же этот агент давал сбой примерно в 1% случаев.
Без ошибок. Без предупреждений. Он просто возвращал мусор.
Вот суровая правда:
Агенты часто терпят неудачу. И они терпят неудачу молча. Всё время. Вы просто не можете доверять LLM, чтобы он делал всё правильно каждый раз.
На данный момент я создал и развернул несколько десятков агентов, и вот некоторые вещи, которые действительно работают:
1. Наблюдаемость с первого дня. Если вы не можете видеть, что делает ваш агент, вы не можете его отлаживать, улучшать или доверять ему. Каждый агент должен производить трассировки, показывающие полный поток запросов, взаимодействия моделей, использование токенов и временные метаданные.
2. Ограничения на входные и выходные данные. Всё, что поступает в LLM и выходит из него, должно проверяться детерминированным кодом. Даже вещи, которые вряд ли сломаются, в конечном итоге сломаются.
3. Оценка LLM как судьи. Вы можете создать простого судью, используя LLM, чтобы автоматически оценивать выходные данные вашего агента. Пометьте набор данных, напишите запрос на оценку и итеративно работайте, пока ваш судья не поймает большинство ошибок.
4. Анализ ошибок. Вы можете собирать образцы неудач, классифицировать их и диагностировать наиболее частые ошибки.
5. Инженерия контекста. Часто агенты терпят неудачу, потому что их контекст шумный, перегруженный или неуместный. Научиться поддерживать контекст актуальным — это очень важно.
6. Циклы обратной связи от человека. Иногда лучшим ограничением является человек в процессе, особенно для решений с высокими ставками.
106
Основы инженерии являются множителями силы для ИИ.
Если у вас есть тесты, ИИ может запускать их после каждого изменения и самокорректироваться. Если их нет, вы просто надеетесь, что ничего не сломается.
Если у вас есть конвейер CI/CD, вы можете с уверенностью развертывать код, сгенерированный ИИ. Если его нет, вы просто надеетесь, что ничего не сломается.
Если у вас есть хороший процесс ревью кода, вы можете выявить любые проблемы с кодом, сгенерированным ИИ. Если его нет, вы просто надеетесь, что ничего не сломается.
Если у вас есть качественная документация, ИИ поймет вашу кодовую базу и сгенерирует гораздо лучший код. Если ее нет, вы просто надеетесь, что ничего не сломается.
Разрыв между командами с прочными основами программной инженерии и теми, у кого их нет, скоро станет огромным.
138
Топ
Рейтинг
Избранное
