Что не хватает для создания полезных агентов глубоких исследований? Агенты глубоких исследований обещают отчеты на уровне аналитиков через автоматизированный поиск и синтез. Однако текущие системы не обеспечивают действительно полезные исследования. Вопрос в том: где именно они терпят неудачу? Эта новая статья представляет FINDER, эталон из 100 задач, отобранных людьми, с 419 структурированными пунктами контрольного списка для оценки качества отчетов. В отличие от эталонов QA, FINDER сосредоточен на комплексной генерации отчетов. Исследователи проанализировали примерно 1,000 отчетов от основных агентов глубоких исследований. Их выводы ставят под сомнение предположения о том, где эти системы глубоких исследований испытывают трудности. Текущие агенты не испытывают трудностей с пониманием задач. Они терпят неудачу в интеграции доказательств, верификации и планировании, устойчивом к рассуждениям. Они понимают, что вы спрашиваете. Они просто не могут надежно синтезировать ответ. Статья представляет DEFT, первую таксономию неудач для агентов глубоких исследований. Она идентифицирует 14 различных режимов неудач в трех категориях: неудачи в рассуждениях, неудачи в извлечении и неудачи в генерации. Этот систематический анализ показывает, что разрыв между текущими возможностями и полезными исследованиями не связан с более умным поиском или лучшими языковыми моделями. Дело в архитектуре рассуждений, которая связывает извлечение с синтезом. (сохраните это) Статья: