Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ce lipsește pentru a construi agenți de cercetare profundă utili?
Agenții de cercetare profundă promit rapoarte la nivel de analiști prin căutare automată și sinteză. Totuși, sistemele actuale nu sunt suficiente pentru cercetări cu adevărat utile.
Întrebarea este: unde anume eșuează?
Acest nou articol introduce FINDER, un etalon de 100 de sarcini de cercetare curatoriate de oameni, cu 419 elemente structurate pentru evaluarea calității raportului. Spre deosebire de benchmark-urile QA, FINDER se concentrează pe generarea cuprinzătoare a rapoartelor.
Cercetătorii au analizat aproximativ 1.000 de rapoarte de la agenți principali de cercetare profundă. Rezultatele lor contestă presupunerile despre unde aceste sisteme de cercetare profunde se confruntă.
Agenții actuali nu au dificultăți cu înțelegerea sarcinilor. Ei eșuează în integrarea dovezilor, verificare și planificare rezilientă la raționament. Ei înțeleg ce întrebi. Pur și simplu nu pot sintetiza răspunsul în mod fiabil.
Lucrarea introduce DEFT, prima taxonomie a eșecului pentru agenții de cercetare profundă. Identifică 14 moduri distincte de defecțiune în trei categorii: eșecuri de raționament, eșecuri de recuperare și eșecuri de generare.
Această analiză sistematică dezvăluie că diferența dintre capabilitățile actuale și cercetarea utilă nu se referă la o căutare mai inteligentă sau modele lingvistice mai bune. Este vorba despre arhitectura de raționament care leagă recuperarea de sinteză.
(îl adaugă la favorite)
Hârtie:

Limită superioară
Clasament
Favorite

