¿Qué falta para construir agentes de investigación profunda útiles? Los agentes de investigación profunda prometen informes a nivel de analista a través de búsqueda y síntesis automatizadas. Sin embargo, los sistemas actuales no logran proporcionar una investigación genuinamente útil. La pregunta es: ¿dónde exactamente fallan? Este nuevo artículo presenta FINDER, un estándar de 100 tareas de investigación curadas por humanos con 419 elementos de lista estructurados para evaluar la calidad de los informes. A diferencia de los estándares de QA, FINDER se centra en la generación de informes completos. Los investigadores analizaron aproximadamente 1,000 informes de agentes de investigación profunda convencionales. Sus hallazgos desafían las suposiciones sobre dónde luchan estos sistemas de investigación profunda. Los agentes actuales no tienen problemas con la comprensión de tareas. Fallan en la integración de evidencia, verificación y planificación resistente al razonamiento. Entienden lo que estás preguntando. Simplemente no pueden sintetizar la respuesta de manera confiable. El artículo presenta DEFT, la primera taxonomía de fallos para agentes de investigación profunda. Identifica 14 modos de fallo distintos en tres categorías: fallos de razonamiento, fallos de recuperación y fallos de generación. Este desglose sistemático revela que la brecha entre las capacidades actuales y la investigación útil no se trata de una búsqueda más inteligente o mejores modelos de lenguaje. Se trata de la arquitectura de razonamiento que conecta la recuperación con la síntesis. (guárdalo) Artículo: