Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Los sistemas multiagente a menudo decepcionan?
El problema puede no estar en los agentes en sí, sino en la forma en que están organizados.
La mayoría de los sistemas utilizan estructuras fijas en cadena, en árbol o en grafo, que no pueden ajustarse a medida que cambian las tareas.
¿Pero qué pasaría si el sistema pudiera aprender sus propios patrones de colaboración?
Este importante artículo presenta un marco llamado Puppeteer, que puede orquestar dinámicamente a los agentes, en lugar de depender de una topología predefinida.
La clave está en:
• No predefinir la estructura de colaboración, sino que un coordinador elige el siguiente agente que hablará según el estado de diálogo en constante cambio.
• Utilizar el algoritmo REINFORCE para entrenar la estrategia, optimizando directamente la tasa de éxito de la tarea.
• Serializar todo en una selección continua de agentes, en lugar de buscar en una compleja topología de grafo, evitando así la complejidad combinatoria.
Los resultados son sorprendentes:
Se forman naturalmente patrones cíclicos compactos, en lugar de una gran estructura de grafo, donde 2-3 agentes manejan la mayor parte del trabajo.
Lo más impresionante es que el sistema puede descubrir la eficiencia de forma autónoma.
Resultados mostrados:
• En el problema matemático GSM-Hard: la precisión alcanzó el 70% (en comparación, el modelo base solo tenía un 13.5% por sí solo).
• En MMLU-Pro: alcanzó el 83% (la línea base era del 76%).
• En el desarrollo de software SRDD: alcanzó el 76.4% (la línea base era del 60.6%).
Estas mejoras vinieron acompañadas de una reducción en el consumo de tokens.
El artículo muestra que, a lo largo de todo el proceso de entrenamiento, el costo de tokens disminuyó continuamente, mientras que el rendimiento aumentó.
También demostraron que el proceso de selección de agentes cumple con la propiedad de Markov, lo que significa que el estado actual puede determinar el mejor siguiente agente, sin necesidad de rastrear toda la historia.
Así que:
Para los desarrolladores de AI, la simplicidad aprendida supera a la complejidad cuidadosamente diseñada.
Un enrutador entrenado, junto con algunos agentes especializados, puede superar flujos de trabajo cuidadosamente diseñados, al mismo tiempo que reduce la carga computacional.

Enlace del documento:
11,53K
Parte superior
Clasificación
Favoritos

