Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budování s agenty AI @dair_ai • Předchozí: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Sdílím poznatky o tom, jak stavět s LLM a AI agenty ⬇️
Nový průzkum o agentických LLM.
Průzkum zahrnuje tři propojené kategorie: uvažování a vyhledávání pro lepší rozhodování, modely orientované na akci pro praktickou pomoc a multiagentní systémy pro spolupráci a studium vznikajícího sociálního chování.
Klíčové aplikace zahrnují lékařskou diagnostiku, logistiku, finanční analýzu a podporu vědeckého výzkumu prostřednictvím sebereflexivních roleplayingových agentů.
Zpráva zdůrazňuje, že agentické LLM nabízejí řešení nedostatku tréninkových dat tím, že během inference generují nové tréninkové stavy.
Papír:

41,26K
Google právě zveřejnil skvělý průvodce efektivním kontextovým inženýrstvím pro multiagentní systémy.
Věnujte tomu pozor, vývojáři AI! (ulož si to)
Zde jsou mé hlavní poznatky:
Kontextová okna nejsou úzkým hrdlem. Kontextové inženýrství ano.
U složitějších a dlouhodobých problémů nelze správu kontextu považovat za jednoduchý problém "manipulace s řetězci".
Výchozí přístup k řešení kontextu v agentních systémech dnes zůstává vkládat vše do promptu. Více historie, více symbolů, více zmatku. Většina týmů považuje kontext za problém konkatenace řetězců.
Ale surové kontextové výpisy vytvářejí tři zásadní selhání:
> nákladů exploze kvůli opakujícím se informacím
> zhoršení výkonu v důsledku efektů "ztraceného uprostřed"
> nárůst míry halucinací, když agenti špatně přisuzují akce v systému
Správa kontextu se stává architektonickou záležitostí vedle úložiště a výpočetního zpracování. To znamená, že explicitní transformace nahrazují ad-hoc konkatenaci řetězců. Agenti dostávají minimální požadovaný kontext ve výchozím nastavení a explicitně požadují další informace prostřednictvím nástrojů.
Zdá se, že Google Agent Development Kit opravdu hluboce přemýšlí o správě kontextu. Zavádí vrstvenou architekturu, která považuje kontext za "kompilovaný pohled nad stavovým systémem" spíše než za aktivitu s naplňováním promptů.
Jak to vypadá?
1) Struktura: Stupňovitý model
Rámec odděluje úložiště od prezentace ve čtyřech odlišných vrstvách:
1) Working Context zpracovává efemérní zobrazení na jedno vyvolání.
2) Session udržuje odolný záznam událostí, zachycuje každou zprávu, volání nástroje a řídicí signál.
3) Paměť poskytuje vyhledávatelné, dlouhotrvající znalosti, které přežijí jednotlivé sezení.
4) Artefakty spravují velká binární data prostřednictvím verzovaných odkazů místo inline embeddingu.
Jak vlastně funguje kompilace kontextu? Pracuje na základě uspořádaných LLM toků s explicitními procesory. Obsahový procesor provádí tři operace: výběr filtruje irelevantní události, transformace zplošťuje události do správně rolovaných obsahových objektů a injekční zapisuje formátovanou historii do požadavku LLM.
Obsahový procesor je v podstatě mostem mezi relací a pracovním kontextem.
Architektura implementuje caching předpon rozdělením kontextu na stabilní prefixy (instrukce, identita, souhrny) a přípony proměnných (nejnovější obraty, výstupy nástrojů). Navíc static_instruction primitivní systém zaručuje neměnnost systémových promptů, čímž zachovává platnost cache napříč voláními.
2) Agentické řízení toho, co je důležité nyní
Jakmile pochopíte strukturu, hlavní výzvou se stává relevance.
Musíš teď zjistit, co patří do aktivního okna.
ADK na to reaguje spoluprací mezi lidsky definovanou architekturou a agentickým rozhodováním. Inženýři určují, kde data žijí a jak jsou shrnuta. Agenti dynamicky rozhodují, kdy "sáhnout" po konkrétních paměťových blocích nebo artefaktech.
Pro velké užitečné zatížení ADK používá vzor rukojeti. 5MB CSV nebo masivní JSON odpověď zůstává v úložišti artefaktů, ne v promptu. Agenti ve výchozím nastavení vidí pouze lehké odkazy. Když jsou potřeba surová data, volají LoadArtifactsTool pro dočasné rozšíření. Po dokončení úkolu se artefakt vyloží. To proměňuje trvalou daň z kontextu v přesný přístup na vyžádání.
Pro dlouhodobé znalosti poskytuje MemoryService dva vzory vyhledávání:
1) Reaktivní vybavování: agenti rozpoznají mezery ve znalostech a explicitně prohledají korpus.
2) Proaktivní recall: předprocesory provádějí vyhledávání podobnosti na uživatelském vstupu, vkládají relevantní úryvky před vyvoláním modelu. Agenti si přesně pamatují útržky potřebné pro tento krok, místo aby vedli každý rozhovor, který kdy vedli.
To všechno mi připomíná stupňovitý přístup k Claude Skills, který skutečně zlepšuje efektivní využití kontextu v Claude Code.
3) Multiagentní kontext
Systémy s jedním agentem trpí nadužíváním kontextu. Při tvorbě multiagentů se tento problém ještě zhoršuje, což snadno vede k "explozi kontextu", jak začleňuje více subagentů.
Pro efektivní fungování multiagentní koordinace ADK poskytuje dva vzory. Agenti jako nástroje zacházejí se specializovanými agenty jako s volatelnými dotazy bez předchozí historie. Agent Transfer, který umožňuje plné předání kontroly, kde podagenti dědí pohledy relace. Parametr include_contents řídí tok kontextu, výchozí nastavení na plný pracovní kontext nebo pouze nové promptové zadání.
Co zabraňuje halucinacím během předávání agentů? Řešením je překlad konverzace. Zprávy předchozího asistenta se převádějí do narativního kontextu pomocí atribučních štítků. Volby nástrojů od jiných agentů jsou explicitně označeny. Každý agent přebírá roli asistenta, aniž by špatně přisuzoval historii širšího systému sobě.
Nakonec nemusíte používat Google ADK k aplikaci těchto poznatků. Myslím, že tyto možnosti by mohly platit napříč při budování multiagentních systémů.
(obrázek s laskavým svolením nano banana pro)

1,25K
PŘÍPAD ŠKÁLOVÁNÍ PROSTŘEDÍ //
Škálování prostředí může být stejně důležité jako škálování modelů pro agentickou AI.
Současný výzkum AI naznačuje, že vytvoření výkonného agentického AI modelu není jen o lepším uvažování. Jde také o lepší prostředí.
Výchozím přístupem k tréninku schopných AI agentů je dnes sbírání statických trajektorií nebo lidských demonstrací. To vyžaduje více dat, více příkladů a více anotace.
Ale statická data nemohou naučit dynamické rozhodování. Modely trénované tímto způsobem mají potíže s dlouhodobým, cílevědomým charakterem skutečných agentických úkolů.
Tento nový výzkum představuje Nex-N1, framework, který systematicky škáluje rozmanitost a složitost interaktivních tréninkových prostředí, nikoli pouze škálování dat.
Schopnosti agentů vznikají z interakce, nikoli z napodobování. Místo shromažďování dalších demonstrací vybudovali infrastrukturu, která automaticky generovala rozmanité architektury a pracovní postupy agentů na základě specifikací přirozeného jazyka.
Systém má tři komponenty. NexAU (Agent Universe) poskytuje univerzální rámec agentů, který generuje složité hierarchie agentů z jednoduchých konfigurací. NexA4A (Agent for Agent) automaticky syntetizuje různé architektury agentů z přirozeného jazyka. NexGAP překonává propast mezi simulací a realitou integrací reálných MCP nástrojů pro syntézu uzemněné trajektorie.
Výsledky:
- Na lavici τ2 dosahuje Nex-N1 postavený na DeepSeek-V3.1 skóre 80,2, což překoná základní model s 42,8.
- Na SWE-bench Verified dosahuje Qwen3-32B-Nex-N1 50,5 % oproti základnímu modelu 12,9 %.
- Na BFCL v4 pro použití nástrojů Nex-N1 (65.3) překonává GPT-5 (61.6).
V lidských hodnoceních reálného vývoje projektů napříč 43 programátorskými scénáři vyhrává nebo remizuje Nex-N1 s Claude Sonnetem 4,5 v 64,5 % případů a s GPT-5 v ~70 % případů.
Také vytvořili agenta pro hluboký výzkum na Nex-N1, který dosáhl 47,0 % na Deep Research Benchmark, s možnostmi vizualizovaného generování zpráv, včetně diapozitivů a výzkumných plakátů.
Papír:

10,43K
Top
Hodnocení
Oblíbené

