DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Wat ontbreekt er om nuttige diepgaande onderzoeksagents te bouwen? Diepgaande onderzoeksagents beloven rapporten op analisten-niveau door middel van geautomatiseerd zoeken en synthetiseren. Echter, huidige systemen schieten tekort in het leveren van werkelijk nuttig onderzoek. De vraag is: waar falen ze precies? Dit nieuwe paper introduceert FINDER, een benchmark van 100 door mensen samengestelde onderzoekstaken met 419 gestructureerde checklistitems voor het evalueren van de rapportkwaliteit. In tegenstelling tot QA-benchmarks richt FINDER zich op uitgebreide rapportgeneratie. De onderzoekers analyseerden ongeveer 1.000 rapporten van gangbare diepgaande onderzoeksagents. Hun bevindingen dagen aannames uit over waar deze diepgaande onderzoekssystemen moeite mee hebben. Huidige agents hebben geen moeite met taakbegrip. Ze falen bij bewijsintegratie, verificatie en redeneringsbestendige planning. Ze begrijpen wat je vraagt. Ze kunnen alleen het antwoord niet betrouwbaar synthetiseren. Het paper introduceert DEFT, de eerste faaltaxonomie voor diepgaande onderzoeksagents. Het identificeert 14 verschillende faalmodi in drie categorieën: redeneringsfouten, retrievalfouten en generatiefouten. Deze systematische opsplitsing onthult dat de kloof tussen huidige capaciteiten en nuttig onderzoek niet gaat om slimmer zoeken of betere taalmodellen. Het gaat om de redeneringsarchitectuur die retrieval verbindt met synthese. (bladwijzer het) Paper:

Boven

Positie

Favorieten