Мультиагентні системи часто розчаровують? Проблема може бути не в самих агентах, а в тому, як вони організовані. Більшість систем мають фіксовану ланцюгову, деревову або графову структуру, яку не можна регулювати під час зміни завдання. Але що, якщо система зможе навчитися власній моделі співпраці? Ця масштабна стаття вводить фреймворк під назвою Puppeteer, який динамічно координує агентів, а не покладається на заздалегідь розроблені топології. Ключ у тому: • Більше не визначені структури співпраці, а агенти, чиї координатори обирають наступного спікера на основі змін стану розмови. • Навчати стратегіям із використанням алгоритмів REINFORCE для прямої оптимізації успішності завдань. • Уникайте комбінаторної складності, серіалізуючи все у безперервний вибір агентів замість пошуку топологій складних графів. Результати вражають: Замість величезної графової структури природно формується компактний циклічний візерунок, у якому 2-3 агенти виконують більшість роботи. Ще потужніше те, що система може автономно знаходити ефективність. Демонстрація досягнень: • На задачах GSM-Hard математики: точність 70% (порівняно з 13,5% при використанні лише базової моделі). • На MMLU-Pro: досяг 83% (76% на початковому рівні). • У розробці програмного забезпечення SRDD: досягнуто 76,4% (базовий рівень 60,6%). Ці бонуси супроводжуються зниженням споживання токенів. У статті показано, що вартість жетонів продовжує зменшуватися, а продуктивність покращується протягом навчання. Вони також продемонстрували, що процес вибору агента задовольняє властивість Маркова, тобто поточний стан визначає оптимального наступного агента без необхідності відстежувати повну історію. Так: Для розробників ШІ простота навчання переважає складність ретельного дизайну. Навчений маршрутизатор із кількома спеціалізованими агентами перевершує добре спроєктовані робочі процеси, зменшуючи обчислювальні витрати.
Посилання на статтю:
1,7K