Sind Multi-Agenten-Systeme oft enttäuschend? Das Problem liegt möglicherweise nicht bei den Agenten selbst, sondern in ihrer Organisationsweise. Die meisten Systeme verwenden feste Ketten-, Baum- oder Graphstrukturen, die sich nicht an die Veränderungen der Aufgaben anpassen können. Aber was wäre, wenn das System seine eigenen Kooperationsmuster lernen könnte? Dieses bahnbrechende Papier stellt ein Framework namens Puppeteer vor, das Agenten dynamisch orchestrieren kann, anstatt sich auf vorab gestaltete Topologien zu verlassen. Der Schlüssel liegt darin: • Keine vordefinierten Kooperationsstrukturen mehr, sondern ein Koordinator wählt den nächsten sprechenden Agenten basierend auf dem sich ständig ändernden Dialogstatus aus. • Verwendung des REINFORCE-Algorithmus zur Schulung der Strategie, um die Erfolgsquote der Aufgaben direkt zu optimieren. • Alle Inhalte werden in eine kontinuierliche Auswahl von Agenten serialisiert, anstatt komplexe Graph-Topologien zu durchsuchen, wodurch kombinatorische Komplexität vermieden wird. Die Ergebnisse sind überraschend: Es bilden sich auf natürliche Weise kompakte Zyklusmuster, anstatt großer Graphstrukturen, wobei 2-3 Agenten den Großteil der Arbeit erledigen. Noch beeindruckender ist, dass das System selbstständig Effizienz entdecken kann. Die Ergebnisse zeigen: • Bei GSM-Hard-Mathematikproblemen: Eine Genauigkeit von 70 % (im Vergleich dazu hatte das Basismodell allein nur 13,5 %). • Bei MMLU-Pro: 83 % (Basislinie 76 %). • Bei SRDD-Softwareentwicklung: 76,4 % (Basislinie 60,6 %). Diese Verbesserungen gehen mit einer Senkung des Token-Verbrauchs einher. Das Papier zeigt, dass die Token-Kosten während des gesamten Trainingsprozesses kontinuierlich gesenkt werden, während die Leistung steigt. Sie haben auch bewiesen, dass der Auswahlprozess der Agenten die Markov-Eigenschaft erfüllt, was bedeutet, dass der aktuelle Zustand den optimalen nächsten Agenten bestimmen kann, ohne die gesamte Historie verfolgen zu müssen. Also: Für AI-Entwickler überwiegt die erlernte Einfachheit die sorgfältig gestaltete Komplexität. Ein trainierter Router, kombiniert mit einigen spezialisierten Agenten, kann sorgfältig gestaltete Arbeitsabläufe übertreffen und gleichzeitig die Rechenkosten senken.
Papierlink:
2,06K