Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qu'est-ce qui manque pour construire des agents de recherche approfondie utiles ?
Les agents de recherche approfondie promettent des rapports de niveau analyste grâce à une recherche et une synthèse automatisées. Cependant, les systèmes actuels ne parviennent pas à fournir une recherche véritablement utile.
La question est : où échouent-ils exactement ?
Ce nouvel article présente FINDER, une référence de 100 tâches de recherche sélectionnées par des humains avec 419 éléments de liste structurés pour évaluer la qualité des rapports. Contrairement aux références QA, FINDER se concentre sur la génération de rapports complets.
Les chercheurs ont analysé environ 1 000 rapports provenant d'agents de recherche approfondie grand public. Leurs conclusions remettent en question les hypothèses sur les difficultés rencontrées par ces systèmes de recherche approfondie.
Les agents actuels n'ont pas de difficultés avec la compréhension des tâches. Ils échouent dans l'intégration des preuves, la vérification et la planification résiliente au raisonnement. Ils comprennent ce que vous demandez. Ils ne peuvent tout simplement pas synthétiser la réponse de manière fiable.
L'article introduit DEFT, la première taxonomie des échecs pour les agents de recherche approfondie. Elle identifie 14 modes d'échec distincts répartis en trois catégories : échecs de raisonnement, échecs de récupération et échecs de génération.
Cette analyse systématique révèle que l'écart entre les capacités actuelles et une recherche utile ne concerne pas une recherche plus intelligente ou de meilleurs modèles linguistiques. Il s'agit de l'architecture de raisonnement qui relie la récupération à la synthèse.
(enregistrez-le)
Article :

Meilleurs
Classement
Favoris

