Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bygge med AI-agenter @dair_ai • Forrige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Jeg deler innsikt om hvordan du bygger med LLM-er og AI-agenter ⬇️
Google har nettopp publisert en flott guide om effektiv kontekstutvikling for systemer med flere agenter.
Følg med på denne, AI-utviklere! (bokmerk det)
Her er mine viktigste punkter:
Kontekstvinduer er ikke flaskehalsen. Kontekstutvikling er det.
For mer komplekse og langsiktige problemer kan ikke konteksthåndtering behandles som et enkelt «strengmanipulasjons»-problem.
Standardmetoden for å håndtere kontekst i agentsystemer i dag er fortsatt å stappe alt inn i prompten. Mer historie, flere tokens, mer forvirring. De fleste lag behandler kontekst som et streng-sammenkoblingsproblem.
Men rå kontekstdump skaper tre kritiske feil:
> kostnadseksplosjon fra repeterende informasjon
> ytelsesforringelse fra «lost in the middle»-effekter
> økning i hallusinasjonsrater når agenter feiltilskriver handlinger på tvers av et system
Kontekststyring blir en arkitektonisk bekymring sammen med lagring og databehandling. Dette betyr at eksplisitte transformasjoner erstatter ad hoc-strengsammenkledning. Agenter mottar som minimum nødvendig kontekst som standard og ber eksplisitt om tilleggsinformasjon via verktøy.
Det virker som Googles Agent Development Kit virkelig tenker dypt på konteksthåndtering. Den introduserer en lagdelt arkitektur som behandler kontekst som «en kompilert visning over et tilstandsbasert system» i stedet for en prompt-stuffing-aktivitet.
Hvordan ser dette ut?
1) Struktur: Den lagdelte modellen
Rammeverket skiller lagring fra presentasjon i fire distinkte lag:
1) Working Context håndterer flyktige per-invocation-visninger.
2) Sesjonen opprettholder den varige hendelsesloggen, og fanger opp hver melding, verktøykall og kontrollsignal.
3) Hukommelsen gir søkbar, langvarig kunnskap som overlever enkeltøkter.
4) Artefakter håndterer store binærdata gjennom versjonsbaserte referanser i stedet for inline-embedding.
Hvordan fungerer egentlig kontekstkompilering? Den fungerer gjennom ordnede LLM-flyter med eksplisitte prosessorer. En innholdsprosessor utfører tre operasjoner: utvelgelse filtrerer irrelevante hendelser, transformasjon flater ut hendelser til riktig rullede innholdsobjekter, og injeksjon skriver formatert historikk inn i LLM-forespørselen.
Innholdsprosessoren er i hovedsak broen mellom en økt og arbeidskonteksten.
Arkitekturen implementerer prefikscaching ved å dele konteksten inn i stabile prefikser (instruksjoner, identitet, oppsummeringer) og variabelsuffikser (siste turer, verktøyutdata). I tillegg garanterer en static_instruction primitiv uforanderlighet for systemprompts, og bevarer cache-gyldigheten over alle kall.
2) Agentisk håndtering av det som betyr noe nå
Når du finner ut av strukturen, blir kjerneutfordringen relevans.
Du må finne ut hva som hører hjemme i det aktive vinduet akkurat nå.
ADK svarer på dette gjennom samarbeid mellom menneskedefinert arkitektur og agentisk beslutningstaking. Ingeniører definerer hvor dataene befinner seg og hvordan de oppsummeres. Agenter bestemmer dynamisk når de skal "strekke seg" etter spesifikke minneblokker eller artefakter.
For store nyttelaster anvender ADK et håndtaksmønster. Et 5MB CSV- eller massivt JSON-svar ligger i artefaktlagringen, ikke i prompten. Agenter ser som standard bare lette referanser. Når rådata trengs, kaller de LoadArtifactsTool for midlertidig utvidelse. Når oppgaven er fullført, lastes artefakten av. Dette gjør permanent kontekstskatt om til presis, on-demand tilgang.
For langtidskunnskap tilbyr MemoryService to hentemønstre:
1) Reaktiv gjenkalling: agenter gjenkjenner kunnskapshull og søker eksplisitt i korpuset.
2) Proaktiv gjenkalling: pre-prosessorer kjører likhetssøk på brukerinput, og injiserer relevante utdrag før modellkalling. Agentene husker nøyaktig de bitene som trengs for det nåværende steget, i stedet for å bære hver eneste samtale de noen gang har hatt.
Alt dette minner meg om den lagdelte tilnærmingen til Claude Skills, som forbedrer effektiv bruk av kontekst i Claude Code.
3) Multi-agent kontekst
Enkeltagentsystemer lider av kontekstoppblåsthet. Når man bygger multi-agenter, forsterkes dette problemet ytterligere, noe som lett fører til "konteksteksplosjon" når du inkorporerer flere underagenter.
For at koordinering mellom flere agenter skal fungere effektivt, tilbyr ADK to mønstre. Agenter-som-verktøy behandler spesialiserte agenter som callables som mottar fokuserte påminnelser uten en forfedres historie. Agent Transfer, som muliggjør full kontroll over overleveringer der underagenter arver sesjonsvisninger. include_contents-parameteren styrer kontekstflyten, og går som standard til full arbeidskontekst eller gir kun den nye prompten.
Hva forhindrer hallusinasjoner under agentoverleveringer? Løsningen er samtaleoversettelse. Tidligere assistent-meldinger konverteres til narrativ kontekst med attributt-tagger. Verktøykall fra andre agenter er eksplisitt markert. Hver agent påtar seg rollen som assistent uten å feiltilskrive systemets bredere historie til seg selv.
Til slutt trenger du ikke bruke Google ADK for å anvende disse innsiktene. Jeg tror disse kan gjelde på tvers når man bygger systemer med flere agenter.
(bilde med tillatelse fra nano banana pro)

1,2K
ARGUMENTET FOR MILJØSKALERING //
Miljøskalering kan være like viktig som modellskalering for agentisk AI.
Nåværende AI-forskning antyder at det å bygge en kraftig agentisk AI-modell ikke bare handler om bedre resonnement. Det handler også om bedre miljøer.
Standardmetoden for å trene kapable AI-agenter i dag er å samle statiske baner eller menneskelige demonstrasjoner. Dette krever mer data, flere eksempler og mer annotasjonsarbeid.
Men statiske data kan ikke lære dynamisk beslutningstaking. Modeller som trenes på denne måten sliter med den langsiktige, målrettede naturen til reelle agentiske oppgaver.
Denne nye forskningen introduserer Nex-N1, et rammeverk som systematisk skalerer mangfoldet og kompleksiteten i interaktive treningsmiljøer i stedet for bare å skalere data.
Agentens evner oppstår gjennom interaksjon, ikke imitasjon. I stedet for å samle flere demonstrasjoner, bygde de infrastruktur for automatisk å generere ulike agentarkitekturer og arbeidsflyter basert på naturlige språkspesifikasjoner.
Systemet har tre komponenter. NexAU (Agent Universe) tilbyr et universelt agentrammeverk som genererer komplekse agenthierarkier fra enkle konfigurasjoner. NexA4A (Agent for Agent) syntetiserer automatisk ulike agentarkitekturer fra naturlig språk. NexGAP bygger bro mellom simulering og virkelighet ved å integrere virkelige MCP-verktøy for jordnær trajektoriesyntese.
Resultater:
- På τ2-benken scorer Nex-N1 bygget på DeepSeek-V3.1 80,2, og overgår basismodellens 42,8.
- På SWE-bench Verified oppnår Qwen3-32B-Nex-N1 50,5 % sammenlignet med basismodellens 12,9 %.
- På BFCL v4 for verktøybruk overgår Nex-N1 (65.3) GPT-5 (61.6).
I menneskelige evalueringer av reell prosjektutvikling på tvers av 43 kodescenarier vinner eller deler Nex-N1 mot Claude Sonnet 4.5 i 64,5 % av tilfellene og mot GPT-5 i ~70 % av tilfellene.
De bygde også en dyp forskningsagent på Nex-N1, og oppnådde 47,0 % på Deep Research Benchmark, med muligheter for visualisert rapportgenerering, inkludert lysbilder og forskningsplakater.
Papir:

8,04K
Topp
Rangering
Favoritter


