Impresionante repaso sobre el razonamiento agential para los LLM. (marca este) ¡135+ páginas! ¿Por qué importa? Los LLMs razonan bien en entornos de mundo cerrado, pero tienen dificultades en entornos dinámicos y abiertos donde la información evoluciona. La pieza que falta es la acción. Esto se debe a que el razonamiento estático sin interacción no puede adaptarse, aprender ni mejorar a partir de la retroalimentación. Esta nueva encuesta sistematiza el paradigma del Razonamiento Agente, donde los LLMs se replantean como agentes autónomos que planifican, actúan y aprenden mediante la interacción continua con su entorno. Proporciona una hoja de ruta unificada que une pensamientos y acciones, ofreciendo orientación práctica para construir sistemas agentes a través de entornos de dinámica ambiental y optimización. El marco organiza el razonamiento agentico a lo largo de tres dimensiones complementarias: 1. Razonamiento Agente Fundamental: Capacidades básicas de agente único, incluyendo planificación, uso de herramientas y búsqueda. Los agentes descomponen objetivos, invocan herramientas externas y verifican resultados mediante acciones ejecutables. Esta es la roca base. 2. Razonamiento Agente Auto-Evolutivo: Cómo los agentes mejoran mediante retroalimentación, memoria y adaptación. En lugar de seguir caminos de razonamiento fijos, los agentes desarrollan mecanismos para la reflexión, la crítica y el aprendizaje impulsado por la memoria. La reflexión, el RL para la memoria y la adaptación continua vinculan el razonamiento con el aprendizaje. 3. Razonamiento Multiagente Colectivo: Escalar la inteligencia desde solucionadores aislados a ecosistemas colaborativos. Múltiples agentes coordinan mediante asignación de roles, protocolos de comunicación y memoria compartida. Debate, resolución de desacuerdos y coherencia a través de interacciones de varios turnos. En todas las capas, la encuesta distingue dos modos de optimización: razonamiento en contexto (escalado del cálculo en tiempo de inferencia mediante orquestación y búsqueda sin actualizaciones de parámetros) y razonamiento post-entrenamiento (interiorización de estrategias mediante RL y ajuste fino). La encuesta abarca aplicaciones que abarcan la exploración matemática, el descubrimiento científico, la robótica incorporada, la sanidad y la investigación en la web autónoma. También revisa el panorama de los benchmarks para evaluar capacidades agentiques. He estado analizando detenidamente esta área de investigación, y aquí hay algunos de los retos abiertos que quedan: personalización, interacción a largo plazo, modelado del mundo, entrenamiento multiagente escalable y marcos de gobernanza para el despliegue en el mundo real. ...