Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un sondaj impresionant privind raționamentul agentic pentru LLM-uri.
(îl pune pe acesta la favorite)
135+ pagini!
De ce contează?
LLM-urile raționează bine în medii închise, dar se confruntă cu dificultăți în medii deschise, dinamice, unde informația evoluează.
Piesa lipsă este acțiunea. Acest lucru se datorează faptului că raționamentul static fără interacțiune nu se poate adapta, învăța sau îmbunătăți din feedback.
Acest nou sondaj sistematizează paradigma Raționamentului Agentic, unde LLM-urile sunt reformulate ca agenți autonomi care planifică, acționează și învață prin interacțiune continuă cu mediul lor.
Oferă o foaie de parcurs unificată care leagă gândurile și acțiunile, oferind îndrumări practice pentru construirea sistemelor agențice în dinamica mediului și în mediile de optimizare.
Cadrul organizează raționamentul agentic pe trei dimensiuni complementare:
1. Raționamentul Agentic Fundamental: Capabilități de bază pentru un singur agent, inclusiv planificarea, utilizarea uneltelor și căutarea. Agenții descompun obiectivele, invocă instrumente externe și verifică rezultatele prin acțiuni executabile. Aceasta este stânca de bază.
2. Raționamentul agențic auto-evolutiv: Cum se îmbunătățesc agenții prin feedback, memorie și adaptare. În loc să urmeze căi fixe de raționament, agenții dezvoltă mecanisme pentru reflecție, critică și învățare bazată pe memorie. Reflecția, RL-ul pentru memorie și adaptarea continuă leagă raționamentul de învățare.
3. Raționamentul colectiv multi-agent: Scalarea inteligenței de la solveri izolați la ecosisteme colaborative. Mai mulți agenți coordonează prin atribuirea rolurilor, protocoale de comunicare și memorie partajată. Dezbatere, rezolvare a dezacordurilor și consistență prin interacțiuni pe mai multe ture.
Pe toate straturile, sondajul distinge două moduri de optimizare: raționamentul în context (scalarea calculului în timp de inferență prin orchestrare și căutare fără actualizări de parametri) și raționamentul post-antrenament (internalizarea strategiilor prin RL și fine-tuning).
Sondajul acoperă aplicații ce acoperă explorarea matematică, descoperirea științifică, robotica corporală, sănătatea și cercetarea autonomă pe web. De asemenea, analizează peisajul reperelor pentru evaluarea capabilităților agențice.
Am analizat cu atenție acest domeniu de cercetare și iată câteva dintre provocările deschise care rămân: personalizarea, interacțiunea pe termen lung, modelarea lumii, instruirea scalabilă multi-agent și cadrele de guvernanță pentru implementarea în lumea reală.
...

Limită superioară
Clasament
Favorite
