Papel de calidad para agentes de construcción. Los sistemas multiagente a menudo rinden por debajo de la expectativa. El problema no es cómo están construidos los agentes en sí. Así es como están organizados. Están construidos principalmente con cadenas fijas, árboles y grafos que no pueden adaptarse a medida que evolucionan las tareas. ¿Pero qué pasaría si el sistema pudiera aprender sus propios patrones de coordinación? Esta nueva investigación introduce Puppeteer, un marco que aprende a orquestar agentes dinámicamente en lugar de depender de topologías hechas a mano. En lugar de predefinir estructuras de colaboración, un orquestador selecciona qué agente habla a continuación en función del estado cambiante de la conversación. La política se entrena con REINFORCE, optimizando directamente para el éxito de la tarea. En lugar de buscar en topologías complejas de grafos, serializan todo en selecciones de agentes secuenciales. Este replanteamiento evita la complejidad combinatoria. Lo que surge es sorprendente: patrones cíclicos compactos se desarrollan de forma natural. No son gráficos extensos, sino bucles cerrados donde 2-3 agentes hacen la mayor parte del trabajo. Lo sorprendente es que el sistema descubre la eficiencia por sí mismo. Resultados: - En problemas de matemáticas GSM-Hard: 70% de precisión (frente al 13,5% solo para el modelo base). - Con MMLU-Pro: 83% (frente al 76% de la línea base). - En desarrollo de software SRDD: 76,4% (frente al 60,6% de la línea base). Estas ganancias vienen acompañadas de una reducción en el consumo de tokens. El artículo muestra que los costes de los tokens disminuyen consistentemente durante el entrenamiento mientras que el rendimiento mejora. También demuestran que el proceso de selección del agente satisface las propiedades de Markov, lo que significa que el estado actual por sí solo determina el siguiente agente óptimo. No hace falta seguir todo el historial histórico. Por qué es importante para los desarrolladores de IA: la simplicidad aprendida supera la complejidad ingenierizada. Un router entrenado con un puñado de agentes especializados puede superar a flujos de trabajo elaborados y elaborados a mano mientras reduce la carga computacional.