Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un article percutant pour les constructeurs d'agents.
Les systèmes multi-agents livrent souvent moins que prévu. Le problème ne réside pas dans la façon dont les agents eux-mêmes sont construits. C'est dans la façon dont ils sont organisés.
Ils sont principalement construits avec des chaînes fixes, des arbres et des graphes qui ne peuvent pas s'adapter à l'évolution des tâches.
Mais que se passerait-il si le système pouvait apprendre ses propres schémas de coordination ?
Cette nouvelle recherche introduit Puppeteer, un cadre qui apprend à orchestrer les agents de manière dynamique plutôt que de s'appuyer sur des topologies conçues à la main.
Au lieu de définir à l'avance des structures de collaboration, un orchestrateur sélectionne quel agent parle ensuite en fonction de l'état évolutif de la conversation. La politique est entraînée avec REINFORCE, optimisant directement pour le succès de la tâche.
Plutôt que de rechercher des topologies de graphes complexes, ils sérialisent tout en sélections d'agents séquentielles. Ce nouveau cadre contourne la complexité combinatoire.
Ce qui émerge est surprenant : des schémas cycliques compacts se développent naturellement. Pas de graphes tentaculaires, mais des boucles serrées où 2-3 agents gèrent la plupart du travail.
La partie remarquable est que le système découvre l'efficacité par lui-même.
Résultats :
- Sur les problèmes mathématiques GSM-Hard : 70 % de précision (contre 13,5 % pour le modèle de base seul).
- Sur MMLU-Pro : 83 % (contre 76 % de référence).
- Sur le développement logiciel SRDD : 76,4 % (contre 60,6 % de référence).
Ces gains s'accompagnent d'une réduction de la consommation de tokens. L'article montre que les coûts en tokens diminuent constamment tout au long de l'entraînement tandis que la performance s'améliore.
Ils prouvent également que le processus de sélection des agents satisfait aux propriétés de Markov, ce qui signifie que l'état actuel détermine à lui seul l'agent optimal suivant. Pas besoin de suivre l'historique complet.
Pourquoi cela compte pour les développeurs d'IA : la simplicité apprise surpasse la complexité conçue. Un routeur entraîné avec une poignée d'agents spécialisés peut surpasser des flux de travail élaborés conçus à la main tout en réduisant la charge computationnelle.

Meilleurs
Classement
Favoris

