Czego brakuje, aby zbudować użyteczne agenty do głębokich badań? Agenty do głębokich badań obiecują raporty na poziomie analityków dzięki zautomatyzowanemu wyszukiwaniu i syntezie. Jednak obecne systemy nie spełniają oczekiwań dotyczących rzeczywiście użytecznych badań. Pytanie brzmi: gdzie dokładnie zawodzą? Ten nowy artykuł wprowadza FINDER, benchmark 100 zadań badawczych opracowanych przez ludzi, z 419 uporządkowanymi punktami kontrolnymi do oceny jakości raportów. W przeciwieństwie do benchmarków QA, FINDER koncentruje się na kompleksowej generacji raportów. Badacze przeanalizowali około 1 000 raportów z głównych agentów do głębokich badań. Ich odkrycia kwestionują założenia dotyczące tego, gdzie te systemy do głębokich badań mają trudności. Obecne agenty nie mają problemów z rozumieniem zadań. Zawodzą w integracji dowodów, weryfikacji i planowaniu odpornym na rozumowanie. Rozumieją, o co pytasz. Po prostu nie potrafią wiarygodnie zsyntetyzować odpowiedzi. Artykuł wprowadza DEFT, pierwszą taksonomię porażek dla agentów do głębokich badań. Identyfikuje 14 odrębnych trybów porażek w trzech kategoriach: porażki w rozumowaniu, porażki w pozyskiwaniu informacji i porażki w generacji. Ta systematyczna analiza ujawnia, że różnica między obecnymi możliwościami a użytecznymi badaniami nie dotyczy mądrzejszego wyszukiwania czy lepszych modeli językowych. Chodzi o architekturę rozumowania, która łączy pozyskiwanie informacji z syntezą. (zakładka) Artykuł: