Hva mangler for å bygge nyttige dype forskningsagenter? Deep research-agenter lover analytikerrapporter gjennom automatisert søk og syntese. Dagens systemer mangler imidlertid genuint nyttig forskning. Spørsmålet er: hvor feiler de egentlig? Denne nye artikkelen introduserer FINDER, en referanse av 100 menneskekuraterte forskningsoppgaver med 419 strukturerte sjekklistepunkter for evaluering av rapportkvalitet. I motsetning til QA-benchmarks fokuserer FINDER på omfattende rapportgenerering. Forskerne analyserte omtrent 1 000 rapporter fra etablerte dypforskningsagenter. Deres funn utfordrer antakelser om hvor disse dype forskningssystemene sliter. Nåværende agenter sliter ikke med oppgaveforståelse. De mislykkes i bevisintegrering, verifisering og planlegging som er robust mot resonnement. De forstår hva du spør om. De klarer bare ikke å syntetisere svaret pålitelig. Artikkelen introduserer DEFT, den første feiltaksonomien for dype forskningsmidler. Den identifiserer 14 distinkte feilmoduser fordelt på tre kategorier: resonnementfeil, gjenopprettingsfeil og genereringsfeil. Denne systematiske oppdelingen viser at gapet mellom dagens kapasiteter og nyttig forskning ikke handler om smartere søk eller bedre språkmodeller. Det handler om resonnementsarkitekturen som kobler henting til syntese. (bokmerk det) Papir: