Multi-agent systemen zijn vaak teleurstellend? Het probleem ligt misschien niet bij de agenten zelf, maar bij de manier waarop ze zijn georganiseerd. De meeste systemen gebruiken vaste keten-, boom- of grafstructuren die niet kunnen worden aangepast aan veranderende taken. Maar wat als het systeem zijn eigen samenwerkingspatronen kan leren? Dit baanbrekende artikel introduceert een kader genaamd Puppeteer, dat agenten dynamisch kan orkestreren in plaats van te vertrouwen op vooraf ontworpen topologieën. De sleutel ligt in: • Geen vooraf gedefinieerde samenwerkingsstructuren meer, maar een coördinator die de volgende sprekende agent kiest op basis van de voortdurend veranderende dialoogstatus. • Het gebruik van het REINFORCE-algoritme om strategieën te trainen en de kans op succes van de taak direct te optimaliseren. • Het serialiseren van alle inhoud naar continue agentkeuzes in plaats van het doorzoeken van complexe graf-topologieën, waardoor combinatorische complexiteit wordt vermeden. De resultaten zijn verrassend: Er vormen zich natuurlijk compacte cyclische patronen in plaats van enorme grafstructuren, waarbij 2-3 agenten het grootste deel van het werk doen. Nog indrukwekkender is dat het systeem in staat is om efficiëntie autonoom te ontdekken. Resultaten tonen aan: • Bij GSM-Hard wiskundeproblemen: een nauwkeurigheid van 70% (ter vergelijking, het basismodel alleen had slechts 13,5%). • Bij MMLU-Pro: 83% (baseline was 76%). • Bij SRDD softwareontwikkeling: 76,4% (baseline was 60,6%). Deze verbeteringen gingen gepaard met een verlaging van het tokenverbruik. Het artikel toont aan dat de tokenkosten gedurende het hele trainingsproces blijven dalen, terwijl de prestaties toenemen. Ze hebben ook aangetoond dat het proces van agentkeuze voldoet aan de Markov-eigenschap, wat betekent dat de huidige status de optimale volgende agent kan bepalen zonder de volledige geschiedenis bij te houden. Dus: Voor AI-ontwikkelaars weegt de geleerde eenvoud zwaarder dan zorgvuldig ontworpen complexiteit. Een getrainde router, samen met enkele gespecialiseerde agenten, kan een zorgvuldig ontworpen workflow overtreffen en tegelijkertijd de rekenkosten verlagen.
Paperlink:
11,4K