Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Что не хватает для создания полезных агентов глубоких исследований?
Агенты глубоких исследований обещают отчеты на уровне аналитиков через автоматизированный поиск и синтез. Однако текущие системы не обеспечивают действительно полезные исследования.
Вопрос в том: где именно они терпят неудачу?
Эта новая статья представляет FINDER, эталон из 100 задач, отобранных людьми, с 419 структурированными пунктами контрольного списка для оценки качества отчетов. В отличие от эталонов QA, FINDER сосредоточен на комплексной генерации отчетов.
Исследователи проанализировали примерно 1,000 отчетов от основных агентов глубоких исследований. Их выводы ставят под сомнение предположения о том, где эти системы глубоких исследований испытывают трудности.
Текущие агенты не испытывают трудностей с пониманием задач. Они терпят неудачу в интеграции доказательств, верификации и планировании, устойчивом к рассуждениям. Они понимают, что вы спрашиваете. Они просто не могут надежно синтезировать ответ.
Статья представляет DEFT, первую таксономию неудач для агентов глубоких исследований. Она идентифицирует 14 различных режимов неудач в трех категориях: неудачи в рассуждениях, неудачи в извлечении и неудачи в генерации.
Этот систематический анализ показывает, что разрыв между текущими возможностями и полезными исследованиями не связан с более умным поиском или лучшими языковыми моделями. Дело в архитектуре рассуждений, которая связывает извлечение с синтезом.
(сохраните это)
Статья:

Топ
Рейтинг
Избранное

