Působivý průzkum agentického uvažování u LLM. (uložím si tohle do záložek) 135+ stran! Proč na tom záleží? LLM se dobře orientují v uzavřených světech, ale mají problémy v otevřených, dynamických prostředích, kde se informace vyvíjejí. Chybějící dílek je akce. Je to proto, že statické uvažování bez interakce se nemůže přizpůsobit, učit se ani zlepšit z zpětné vazby. Tento nový průzkum systematizuje paradigma agentického uvažování, kde jsou LLM přetvářeni jako autonomní agenti, kteří plánují, jednají a učí se prostřednictvím neustálé interakce se svým prostředím. Poskytuje jednotnou cestovní mapu, která propojuje myšlenky a činy a nabízí praktické rady pro budování agentických systémů napříč prostředím dynamiky a optimalizace. Rámec organizuje agentické uvažování do tří doplňujících se dimenzí: 1. Základní agentické uvažování: Základní schopnosti jednoho agenta zahrnují plánování, používání nástrojů a vyhledávání. Agenti rozkládají cíle, volají externí nástroje a ověřují výsledky prostřednictvím spustitelných akcí. Tohle je základ. 2. Samo-evolučním agentickým uvažováním: Jak se agenti zlepšují prostřednictvím zpětné vazby, paměti a adaptací. Namísto toho, aby se pohybovali pevně danými cestami uvažování, si agenti vyvíjejí mechanismy pro reflexi, kritiku a učení založené na paměti. Reflexe, RL-za-paměť a kontinuální adaptace spojují uvažování s učením. 3. Kolektivní multiagentní uvažování: Škálování inteligence od izolovaných řešičů ke spolupracujícím ekosystémům. Více agentů koordinuje prostřednictvím přidělování rolí, komunikačních protokolů a sdílené paměti. Debata, řešení neshod a konzistence prostřednictvím vícekolových interakcí. Napříč všemi vrstvami průzkum rozlišuje dva optimalizační režimy: uvažování v kontextu (škálování výpočtů v době inference pomocí orchestrace a vyhledávání bez aktualizace parametrů) a uvažování po trénování (internalizace strategií pomocí RL a jemného ladění). Průzkum zahrnuje aplikace zahrnující matematický průzkum, vědecké objevy, emtělovanou robotiku, zdravotnictví a výzkum autonomního webu. Dále přezkoumává srovnávací prostředí pro hodnocení agentických schopností. Podrobně jsem se zabýval touto oblastí výzkumu a zde jsou některé z otevřených výzev, které zůstávají: personalizace, dlouhodobá interakce, modelování světa, škálovatelný trénink více agentů a rámce správy pro nasazení v reálném světě. ...