Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Одним из первых агентов, которых я создал, был крайне простым:
Он извлекал информацию из векторного хранилища, форматировал её в HTML и отправлял пользователю по электронной почте.
Не может быть ничего проще, и всё же этот агент давал сбой примерно в 1% случаев.
Без ошибок. Без предупреждений. Он просто возвращал мусор.
Вот суровая правда:
Агенты часто терпят неудачу. И они терпят неудачу молча. Всё время. Вы просто не можете доверять LLM, чтобы он делал всё правильно каждый раз.
На данный момент я создал и развернул несколько десятков агентов, и вот некоторые вещи, которые действительно работают:
1. Наблюдаемость с первого дня. Если вы не можете видеть, что делает ваш агент, вы не можете его отлаживать, улучшать или доверять ему. Каждый агент должен производить трассировки, показывающие полный поток запросов, взаимодействия моделей, использование токенов и временные метаданные.
2. Ограничения на входные и выходные данные. Всё, что поступает в LLM и выходит из него, должно проверяться детерминированным кодом. Даже вещи, которые вряд ли сломаются, в конечном итоге сломаются.
3. Оценка LLM как судьи. Вы можете создать простого судью, используя LLM, чтобы автоматически оценивать выходные данные вашего агента. Пометьте набор данных, напишите запрос на оценку и итеративно работайте, пока ваш судья не поймает большинство ошибок.
4. Анализ ошибок. Вы можете собирать образцы неудач, классифицировать их и диагностировать наиболее частые ошибки.
5. Инженерия контекста. Часто агенты терпят неудачу, потому что их контекст шумный, перегруженный или неуместный. Научиться поддерживать контекст актуальным — это очень важно.
6. Циклы обратной связи от человека. Иногда лучшим ограничением является человек в процессе, особенно для решений с высокими ставками.
Топ
Рейтинг
Избранное
