Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Působivý průzkum agentického uvažování u LLM.
(uložím si tohle do záložek)
135+ stran!
Proč na tom záleží?
LLM se dobře orientují v uzavřených světech, ale mají problémy v otevřených, dynamických prostředích, kde se informace vyvíjejí.
Chybějící dílek je akce. Je to proto, že statické uvažování bez interakce se nemůže přizpůsobit, učit se ani zlepšit z zpětné vazby.
Tento nový průzkum systematizuje paradigma agentického uvažování, kde jsou LLM přetvářeni jako autonomní agenti, kteří plánují, jednají a učí se prostřednictvím neustálé interakce se svým prostředím.
Poskytuje jednotnou cestovní mapu, která propojuje myšlenky a činy a nabízí praktické rady pro budování agentických systémů napříč prostředím dynamiky a optimalizace.
Rámec organizuje agentické uvažování do tří doplňujících se dimenzí:
1. Základní agentické uvažování: Základní schopnosti jednoho agenta zahrnují plánování, používání nástrojů a vyhledávání. Agenti rozkládají cíle, volají externí nástroje a ověřují výsledky prostřednictvím spustitelných akcí. Tohle je základ.
2. Samo-evolučním agentickým uvažováním: Jak se agenti zlepšují prostřednictvím zpětné vazby, paměti a adaptací. Namísto toho, aby se pohybovali pevně danými cestami uvažování, si agenti vyvíjejí mechanismy pro reflexi, kritiku a učení založené na paměti. Reflexe, RL-za-paměť a kontinuální adaptace spojují uvažování s učením.
3. Kolektivní multiagentní uvažování: Škálování inteligence od izolovaných řešičů ke spolupracujícím ekosystémům. Více agentů koordinuje prostřednictvím přidělování rolí, komunikačních protokolů a sdílené paměti. Debata, řešení neshod a konzistence prostřednictvím vícekolových interakcí.
Napříč všemi vrstvami průzkum rozlišuje dva optimalizační režimy: uvažování v kontextu (škálování výpočtů v době inference pomocí orchestrace a vyhledávání bez aktualizace parametrů) a uvažování po trénování (internalizace strategií pomocí RL a jemného ladění).
Průzkum zahrnuje aplikace zahrnující matematický průzkum, vědecké objevy, emtělovanou robotiku, zdravotnictví a výzkum autonomního webu. Dále přezkoumává srovnávací prostředí pro hodnocení agentických schopností.
Podrobně jsem se zabýval touto oblastí výzkumu a zde jsou některé z otevřených výzev, které zůstávají: personalizace, dlouhodobá interakce, modelování světa, škálovatelný trénink více agentů a rámce správy pro nasazení v reálném světě.
...

Top
Hodnocení
Oblíbené
