Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Et selvutviklende rammeverk for å oppdage og forbedre agentferdigheter.
De fleste agentferdigheter jeg ser i dag er håndlagde eller dårlig designet av en agent.
Multiagent-systemer for å bygge ferdigheter ser lovende ut.
Denne artikkelen introduserer EvoSkill, et selvutviklende rammeverk som automatisk oppdager og forbedrer agentferdigheter gjennom iterativ feilanalyse.
EvoSkill analyserer utførelsesfeil, foreslår nye ferdigheter eller endringer i eksisterende, og materialiserer dem i strukturerte, gjenbrukbare ferdighetsmapper.
Tre samarbeidende agenter driver hele prosessen.
En Utøver som kjører oppgaver, en Proposer som diagnostiserer feil, og en Ferdighetsbygger som lager konkrete ferdighetsmapper.
En Pareto-grense styrer utvelgelsen, og beholder kun ferdigheter som forbedrer hold-out-valideringsytelsen, samtidig som den underliggende modellen holdes frosset.
På OfficeQA forbedrer EvoSkill Claude Code med Opus 4.5 fra 60,6 % til 67,9 % nøyaktig treff-nøyaktighet. På SealQA gir det en økning på 12,1 %. Ferdigheter utviklet seg på SealQA transfer zero-shot til BrowseComp, og forbedret nøyaktigheten med 5,3 % uten endringer.
Jeg vil fortsette å følge denne forskningsretningen nøye. Jeg synes det er veldig viktig.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

Topp
Rangering
Favoritter
