Enquête impressionnante sur le raisonnement agentique pour les LLMs. (ajoute ce lien aux favoris) Plus de 135 pages ! Pourquoi est-ce important ? Les LLMs raisonnent bien dans des environnements fermés, mais ils ont du mal dans des environnements ouverts et dynamiques où l'information évolue. Le maillon manquant est l'action. Cela est dû au fait que le raisonnement statique sans interaction ne peut pas s'adapter, apprendre ou s'améliorer grâce aux retours. Ce nouveau sondage systématise le paradigme du Raisonnement Agentique, où les LLMs sont reconsidérés comme des agents autonomes qui planifient, agissent et apprennent à travers une interaction continue avec leur environnement. Il fournit une feuille de route unifiée qui relie pensées et actions, offrant des conseils pratiques pour construire des systèmes agentiques à travers les dynamiques environnementales et les paramètres d'optimisation. Le cadre organise le raisonnement agentique selon trois dimensions complémentaires : 1. Raisonnement Agentique Fondamental : Capacités de base d'un agent unique, y compris la planification, l'utilisation d'outils et la recherche. Les agents décomposent les objectifs, invoquent des outils externes et vérifient les résultats par des actions exécutables. C'est la pierre angulaire. 2. Raisonnement Agentique Auto-Évolutif : Comment les agents s'améliorent grâce aux retours, à la mémoire et à l'adaptation. Plutôt que de suivre des chemins de raisonnement fixes, les agents développent des mécanismes de réflexion, de critique et d'apprentissage basé sur la mémoire. La réflexion, l'apprentissage par renforcement pour la mémoire et l'adaptation continue lient raisonnement et apprentissage. 3. Raisonnement Collectif Multi-Agent : Élargir l'intelligence des solveurs isolés aux écosystèmes collaboratifs. Plusieurs agents se coordonnent par l'attribution de rôles, des protocoles de communication et une mémoire partagée. Débat, résolution de désaccords et cohérence à travers des interactions multi-tours. À tous les niveaux, l'enquête distingue deux modes d'optimisation : le raisonnement en contexte (scalant le calcul en temps d'inférence par orchestration et recherche sans mises à jour de paramètres) et le raisonnement post-formation (internalisant des stratégies via l'apprentissage par renforcement et le fine-tuning). L'enquête couvre des applications allant de l'exploration mathématique, de la découverte scientifique, de la robotique incarnée, des soins de santé et de la recherche autonome sur le web. Elle passe également en revue le paysage des benchmarks pour évaluer les capacités agentiques. J'ai examiné de près ce domaine de recherche, et voici quelques-uns des défis ouverts qui restent : personnalisation, interaction à long terme, modélisation du monde, formation multi-agent évolutive et cadres de gouvernance pour le déploiement dans le monde réel. ...