Multiagent-systemer skuffer ofte? Problemet ligger kanskje ikke hos agentene selv, men i hvordan de er organisert. De fleste systemer har en fast kjede-, tre- eller grafstruktur som ikke kan justeres etter hvert som oppgaven endres. Men hva om systemet kan lære sin egen samarbeidsmodell? Denne storslåtte artikkelen introduserer et rammeverk kalt Puppeteer, som dynamisk orkestrerer agenter i stedet for å stole på forhåndsdesignede topologier. Nøkkelen er: • Ikke lenger forhåndsdefinerte samarbeidsstrukturer, men agenter hvis koordinatorer velger neste taler basert på endrede samtaletilstander. • Trene strategier ved bruk av REINFORCE-algoritmer for direkte å optimalisere suksessraten for oppgaver. • Unngå kombinatorisk kompleksitet ved å serialisere alt i et kontinuerlig agentutvalg i stedet for å lete etter komplekse graftopologier. Resultatene er overraskende: I stedet for en enorm grafstruktur dannes det naturlig et kompakt syklisk mønster, hvor 2-3 agenter håndterer mesteparten av arbeidet. Det som er enda kraftigere, er at systemet kan oppdage effektivitet autonomt. Visning av prestasjoner: • På GSM-Hard matteoppgaver: 70 % nøyaktighet (sammenlignet med 13,5 % når grunnlaget brukes alene). • På MMLU-Pro: oppnådd 83 % (76 % ved baseline). • På SRDD-programvareutvikling: oppnådd 76,4 % (baseline på 60,6 %). Disse økningene ledsages av en reduksjon i token-forbruk. Artikkelen viser at tokenkostnadene fortsetter å synke samtidig som ytelsen forbedres gjennom opplæringen. De demonstrerte også at agentutvelgelsesprosessen tilfredsstiller Markov-egenskapen, noe som betyr at den nåværende tilstanden bestemmer den optimale neste agenten uten behov for å følge hele historikken. Så: For AI-utviklere veier enkelheten i læring tyngre enn kompleksiteten i nøye design. En trent ruter med noen få spesialiserte agenter overgår godt designede arbeidsflyter samtidig som den reduserer beregningsbyrden.
Artikkellenke:
1,2K