Bardzo dobra praca dla twórców agentów. Systemy wieloagentowe często nie spełniają oczekiwań. Problem nie leży w tym, jak same agenty są zbudowane. Chodzi o to, jak są zorganizowane. Zwykle są budowane z użyciem stałych łańcuchów, drzew i grafów, które nie mogą się dostosować, gdy zadania ewoluują. Ale co jeśli system mógłby uczyć się własnych wzorców koordynacji? Niniejsze badania wprowadzają Puppeteer, framework, który uczy się dynamicznie orkiestracji agentów, zamiast polegać na ręcznie tworzonych topologiach. Zamiast wstępnie definiować struktury współpracy, orkiestrator wybiera, który agent mówi następny, w oparciu o ewoluujący stan rozmowy. Polityka jest trenowana z użyciem REINFORCE, optymalizując bezpośrednio pod kątem sukcesu zadania. Zamiast przeszukiwać złożone topologie grafowe, serializują wszystko w sekwencyjne wybory agentów. To przekształcenie omija złożoność kombinatoryczną. To, co się pojawia, jest zaskakujące: kompaktowe cykliczne wzorce rozwijają się naturalnie. Nie rozległe grafy, ale ciasne pętle, w których 2-3 agentów wykonuje większość pracy. Zadziwiające jest to, że system odkrywa efektywność samodzielnie. Wyniki: - W problemach matematycznych GSM-Hard: 70% dokładności (wzrost z 13,5% dla samego modelu bazowego). - W MMLU-Pro: 83% (w porównaniu do 76% w modelu bazowym). - W rozwoju oprogramowania SRDD: 76,4% (w porównaniu do 60,6% w modelu bazowym). Te zyski wiążą się z mniejszym zużyciem tokenów. Praca pokazuje, że koszty tokenów konsekwentnie maleją w trakcie szkolenia, podczas gdy wydajność rośnie. Udowadniają również, że proces wyboru agenta spełnia właściwości Markowa, co oznacza, że sam obecny stan decyduje o optymalnym następnym agencie. Nie ma potrzeby śledzenia pełnej historii. Dlaczego to ma znaczenie dla deweloperów AI: nauczona prostota przewyższa inżynieryjną złożoność. Wytrenowany router z garstką wyspecjalizowanych agentów może przewyższyć skomplikowane ręcznie tworzone przepływy pracy, jednocześnie redukując obciążenie obliczeniowe.