Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Santiago
Компьютерный учёный. В https://t.co/THCAAZcBMu я преподаю жёсткую инженерию искусственного интеллекта и машинного обучения. YouTube: https://t.co/pROi08OZYJ
Кто-нибудь все еще занимается Codex или Gemini CLI?
Мы уже все решили, что Claude Code — победитель?
Нет ничего плохого в том, чтобы поиграть с другими инструментами, но я большой сторонник того, чтобы придерживаться одного инструмента в трудные и легкие времена и стараться хорошо его знать.
Вы просто не сможете достичь мастерства, если будете менять инструменты каждую неделю.
В любом случае, Claude Code — это то, что мне нужно.
59
Одна вещь, с которой агенты LLM не справляются хорошо:
Любой старомодный чат-бот может следовать сценарию, в то время как агенты LLM склонны выходить за рамки и заводить клиентов в странные разговоры.
Но, конечно, старые чат-боты кажутся роботизированными, и клиенты не хотят с ними общаться.
Они надежны, но людям они не нравятся,
Агенты LLM — это противоположность.
Они гибкие и адаптивные, но могут сказать что угодно. Вы буквально находитесь в одном галлюцинационном шаге от катастрофы.
Ребята из Parlant делают что-то действительно умное с их новой версией: вы можете создать агента с лучшими чертами обоих миров.
Агент может динамически переключаться между агентом LLM и строгим режимом в зависимости от того, что происходит в разговоре.
Риск не равномерно распределен по разговору:
1. Когда клиент задает неформальный вопрос о продукте, Parlant использует LLM для генерации плавного и полезного ответа.
2. Когда клиент запрашивает возврат, Parlant включает строгий режим, чтобы вернуть только одобренные, контекстуально обоснованные шаблоны ответов.
Вы контролируете "режим композиции" агента на основе наблюдений за естественным языком о текущем состоянии разговора.
Это действительно классная идея. Она должна значительно улучшить текущее состояние дел в чат-ботах.
Вы можете ознакомиться с этим здесь:
Прилагаемая диаграмма показывает, как работает динамический режим композиции.
79
Одним из первых агентов, которых я создал, был крайне простым:
Он извлекал информацию из векторного хранилища, форматировал её в HTML и отправлял пользователю по электронной почте.
Не может быть ничего проще, и всё же этот агент давал сбой примерно в 1% случаев.
Без ошибок. Без предупреждений. Он просто возвращал мусор.
Вот суровая правда:
Агенты часто терпят неудачу. И они терпят неудачу молча. Всё время. Вы просто не можете доверять LLM, чтобы он делал всё правильно каждый раз.
На данный момент я создал и развернул несколько десятков агентов, и вот некоторые вещи, которые действительно работают:
1. Наблюдаемость с первого дня. Если вы не можете видеть, что делает ваш агент, вы не можете его отлаживать, улучшать или доверять ему. Каждый агент должен производить трассировки, показывающие полный поток запросов, взаимодействия моделей, использование токенов и временные метаданные.
2. Ограничения на входные и выходные данные. Всё, что поступает в LLM и выходит из него, должно проверяться детерминированным кодом. Даже вещи, которые вряд ли сломаются, в конечном итоге сломаются.
3. Оценка LLM как судьи. Вы можете создать простого судью, используя LLM, чтобы автоматически оценивать выходные данные вашего агента. Пометьте набор данных, напишите запрос на оценку и итеративно работайте, пока ваш судья не поймает большинство ошибок.
4. Анализ ошибок. Вы можете собирать образцы неудач, классифицировать их и диагностировать наиболее частые ошибки.
5. Инженерия контекста. Часто агенты терпят неудачу, потому что их контекст шумный, перегруженный или неуместный. Научиться поддерживать контекст актуальным — это очень важно.
6. Циклы обратной связи от человека. Иногда лучшим ограничением является человек в процессе, особенно для решений с высокими ставками.
121
Топ
Рейтинг
Избранное
