Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Os sistemas multi-agente (Multi-agent systems) frequentemente decepcionam?
O problema pode não estar nos agentes em si, mas na forma como estão organizados.
A maioria dos sistemas adota estruturas fixas em cadeia, em árvore ou em grafo, que não conseguem se ajustar às mudanças nas tarefas.
Mas e se o sistema pudesse aprender seus próprios padrões de cooperação?
Este artigo inovador apresenta uma estrutura chamada Puppeteer, que pode orquestrar dinamicamente os agentes, em vez de depender de uma topologia pré-projetada.
A chave está em:
• Não pré-definir a estrutura de cooperação, mas sim permitir que um coordenador escolha o próximo agente a falar com base no estado de diálogo em constante mudança.
• Usar o algoritmo REINFORCE para treinar a estratégia, otimizando diretamente a taxa de sucesso da tarefa.
• Serializar todo o conteúdo em escolhas contínuas de agentes, em vez de pesquisar uma topologia de grafo complexa, evitando assim a complexidade combinatória.
Os resultados são surpreendentes:
Formaram-se naturalmente padrões cíclicos compactos, em vez de uma estrutura de grafo extensa, onde 2-3 agentes lidam com a maior parte do trabalho.
Mais impressionante ainda, o sistema consegue descobrir a eficiência de forma autônoma.
Demonstrações de resultados:
• No problema matemático GSM-Hard: a precisão atingiu 70% (em comparação, o modelo básico sozinho tinha apenas 13,5%).
• No MMLU-Pro: alcançou 83% (a linha de base era 76%).
• No desenvolvimento de software SRDD: alcançou 76,4% (a linha de base era 60,6%).
Esses aumentos vieram acompanhados de uma redução no consumo de tokens.
O artigo mostra que, ao longo de todo o processo de treinamento, o custo de tokens continuou a diminuir, enquanto o desempenho aumentava.
Eles também provaram que o processo de seleção de agentes satisfaz a propriedade de Markov, o que significa que o estado atual pode determinar o próximo agente ótimo, sem a necessidade de rastrear todo o histórico.
Portanto:
Para os desenvolvedores de AI, a simplicidade aprendida supera a complexidade cuidadosamente projetada.
Um roteador treinado, junto com alguns agentes especializados, pode superar fluxos de trabalho meticulosamente projetados, ao mesmo tempo em que reduz a sobrecarga computacional.

Link do artigo:
11,53K
Top
Classificação
Favoritos

