Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cosa manca per costruire agenti di ricerca profonda utili?
Gli agenti di ricerca profonda promettono rapporti a livello analista attraverso ricerca e sintesi automatizzate. Tuttavia, i sistemi attuali non riescono a fornire ricerche veramente utili.
La domanda è: dove esattamente falliscono?
Questo nuovo documento introduce FINDER, un benchmark di 100 compiti di ricerca curati da esseri umani con 419 elementi di checklist strutturati per valutare la qualità dei rapporti. A differenza dei benchmark QA, FINDER si concentra sulla generazione di rapporti completi.
I ricercatori hanno analizzato circa 1.000 rapporti provenienti da agenti di ricerca profonda mainstream. I loro risultati mettono in discussione le assunzioni su dove questi sistemi di ricerca profonda incontrano difficoltà.
Gli agenti attuali non hanno problemi con la comprensione del compito. Falliscono nell'integrazione delle prove, nella verifica e nella pianificazione resistente al ragionamento. Capiscono cosa stai chiedendo. Semplicemente non riescono a sintetizzare la risposta in modo affidabile.
Il documento introduce DEFT, la prima tassonomia dei fallimenti per agenti di ricerca profonda. Identifica 14 modalità di fallimento distinte in tre categorie: fallimenti di ragionamento, fallimenti di recupero e fallimenti di generazione.
Questa suddivisione sistematica rivela che il divario tra le capacità attuali e la ricerca utile non riguarda una ricerca più intelligente o modelli linguistici migliori. Riguarda l'architettura del ragionamento che collega il recupero alla sintesi.
(aggiungilo ai segnalibri)
Documento:

Principali
Ranking
Preferiti

