Os sistemas multi-agente (Multi-agent systems) frequentemente decepcionam? O problema pode não estar nos agentes em si, mas na forma como estão organizados. A maioria dos sistemas adota estruturas fixas em cadeia, em árvore ou em grafo, que não conseguem se ajustar às mudanças nas tarefas. Mas e se o sistema pudesse aprender seus próprios padrões de cooperação? Este artigo inovador apresenta uma estrutura chamada Puppeteer, que pode orquestrar dinamicamente os agentes, em vez de depender de uma topologia pré-projetada. A chave está em: • Não pré-definir a estrutura de cooperação, mas sim permitir que um coordenador escolha o próximo agente a falar com base no estado de diálogo em constante mudança. • Usar o algoritmo REINFORCE para treinar a estratégia, otimizando diretamente a taxa de sucesso da tarefa. • Serializar todo o conteúdo em escolhas contínuas de agentes, em vez de pesquisar uma topologia de grafo complexa, evitando assim a complexidade combinatória. Os resultados são surpreendentes: Formaram-se naturalmente padrões cíclicos compactos, em vez de uma estrutura de grafo extensa, onde 2-3 agentes lidam com a maior parte do trabalho. Mais impressionante ainda, o sistema consegue descobrir a eficiência de forma autônoma. Demonstrações de resultados: • No problema matemático GSM-Hard: a precisão atingiu 70% (em comparação, o modelo básico sozinho tinha apenas 13,5%). • No MMLU-Pro: alcançou 83% (a linha de base era 76%). • No desenvolvimento de software SRDD: alcançou 76,4% (a linha de base era 60,6%). Esses aumentos vieram acompanhados de uma redução no consumo de tokens. O artigo mostra que, ao longo de todo o processo de treinamento, o custo de tokens continuou a diminuir, enquanto o desempenho aumentava. Eles também provaram que o processo de seleção de agentes satisfaz a propriedade de Markov, o que significa que o estado atual pode determinar o próximo agente ótimo, sem a necessidade de rastrear todo o histórico. Portanto: Para os desenvolvedores de AI, a simplicidade aprendida supera a complexidade cuidadosamente projetada. Um roteador treinado, junto com alguns agentes especializados, pode superar fluxos de trabalho meticulosamente projetados, ao mesmo tempo em que reduz a sobrecarga computacional.
Link do artigo:
11,53K