Многоагентные системы (Multi-agent systems) часто разочаровывают? Проблема может заключаться не в самих агентах, а в том, как они организованы. Большинство систем используют фиксированные цепочные, древовидные или графовые структуры, которые не могут адаптироваться к изменениям задач. Но что если система сможет учиться на своих моделях сотрудничества? Эта важная статья представляет собой фреймворк под названием Puppeteer, который может динамически организовывать агентов, а не полагаться на заранее спроектированные топологии. Ключевое в том, что: • Больше не предопределяются структуры сотрудничества, а координатор выбирает следующего говорящего агента в зависимости от постоянно меняющегося состояния диалога. • Используется алгоритм REINFORCE для обучения стратегии, который напрямую оптимизирует вероятность успеха задачи. • Все содержимое сериализуется в последовательные выборы агентов, а не ищется в сложной графовой топологии, что позволяет избежать комбинаторной сложности. Результаты удивительны: Естественным образом формируются компактные циклические модели, а не громоздкие графовые структуры, где 2-3 агента обрабатывают большую часть работы. Что еще более впечатляюще, система может самостоятельно обнаруживать эффективность. Достижения: • По математической задаче GSM-Hard: точность достигла 70% (в то время как базовая модель в одиночку имела только 13.5%). • На MMLU-Pro: достигнуто 83% (базовый уровень 76%). • В разработке программного обеспечения SRDD: достигнуто 76.4% (базовый уровень 60.6%). Эти улучшения сопровождаются снижением потребления токенов. Статья показывает, что в течение всего процесса обучения стоимость токенов постоянно снижается, в то время как производительность растет. Они также доказали, что процесс выбора агентов удовлетворяет марковскому свойству, что означает, что текущее состояние может определить оптимального следующего агента, не отслеживая полную историю. Итак: Для разработчиков AI простота, которую они изучают, превосходит тщательно спроектированную сложность. Обученный маршрутизатор, в сочетании с несколькими специализированными агентами, может превзойти тщательно спроектированные рабочие процессы, одновременно снижая вычислительные затраты.
Ссылка на статью:
11,48K