Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bygge med AI-agenter @dair_ai • Forrige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Jeg deler innsikt om hvordan du bygger med LLM-er og AI-agenter ⬇️
Du kan nå opprette et team av agenter med Claude Code.
Det er i ferd med å bli kaotisk, med Claude Opus 4.6 som den første Opus-modellen med 1M token-kontekst.
Dette vil løfte nivået på hvilke ting du kan gjøre med Claude Code, spesielt på langsiktige oppgaver som research.


Claude2 timer siden
Vi introduserer Claude Opus 4.6. Vår smarteste modell fikk en oppgradering.
Opus 4.6 planlegger mer nøye, opprettholder agentiske oppgaver lenger, opererer pålitelig i massive kodebaser, og oppdager sine egne feil.
Det er også vår første Opus-klasse modell med 1 million token-kontekst i beta.
16
En veldig interessant tilnærming til å bygge effektive systemer med flere agenter
Viktige primitiver å være oppmerksom på

DAIR.AI5 timer siden
Agent Primitive //
Dette er en veldig interessant tilnærming til å bygge effektive systemer med flere agenter.
Multi-agent-systemer blir mer komplekse etter hvert som oppgavene blir vanskeligere. Flere roller, flere prompts, flere skreddersydde interaksjonsmønstre. Likevel gjentar kjerneberegningsmønstrene seg i hvert system: gjennomgang, avstemning, planlegging, gjennomføring.
Men ingen behandler disse mønstrene som gjenbrukbare byggeklosser.
Denne nye forskningen introduserer Agent Primitives, et sett med latente byggesteiner for å konstruere effektive systemer med flere agenter.
Inspirert av hvordan nevrale nettverk bygges opp av gjenbrukbare komponenter som restblokker og oppmerksomhetshoder, deler forskerne opp fleragentarkitekturer i tre tilbakevendende primitiver: Gjennomgang, Stemming og Utvelgelse, og Planlegging og gjennomføring.
Hva gjør disse primitive forskjellige? Agenter inne i hver primitiv kommuniserer via KV-cache i stedet for naturlig språk. Dette unngår informasjonsforringelsen som skjer når agenter sender lange tekstmeldinger frem og tilbake på tvers av flertrinnsinteraksjoner.
En Organizer-agent velger og komponerer primitiver for hver forespørsel, styrt av en lett kunnskapsbase av tidligere vellykkede konfigurasjoner.
Ingen manuell systemdesign kreves.
Resultatene på åtte benchmarks som dekker matematikk, kodegenerering og QA med fem åpne LLM-er:
> Primitive-baserte MAS forbedrer gjennomsnittlig nøyaktighet med 12,0–16,5 % sammenlignet med enkeltagent-baselines
> På GPQA-Diamond er forbedringen slående, 53,2 % mot området 33,6–40,2 % for tidligere metoder som AgentVerse, DyLAN og MAS-GPT
Når det gjelder effektivitet, synker tokenbruk og slutningsforsinkelse med omtrent 3–4 ganger sammenlignet med tekstbasert MAS, samtidig som det kun pådrar seg 1,3–1,6 ganger overhead sammenlignet med enkeltagent-inferens.
I stedet for å designe oppgavespesifikke fleragentarkitekturer fra bunnen av, viser Agent Primitives at et lite sett med gjenbrukbare beregningsmønstre med latent kommunikasjon kan matche eller overgå tilpassede systemer, samtidig som det er dramatisk mer effektivt.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

1
NY forskning fra Meta Superintelligence Labs.
Den bruker et smart strategi-auksjonsrammeverk for å forbedre selvforbedrende agenter på komplekse oppgaver.
Små agenter er ikke alltid nok.
På de enkleste oppgavene oppnår en 4B-parameteragent 87 % av ytelsen til en 32B-agent. Men på de mest komplekse oppgavene faller den relative ytelsen til bare 21 %.
Standardantakelsen i dag er at du enten bruker den største modellen for alt, eller ruter oppgaver med en trent klassifiserer.
Men trente rutere forringes etter hvert som oppgavens vanskelighetsgrad øker, og ikke-prediktive kaskader blir uoverkommelig dyre for agentiske arbeidsbelastninger.
Denne nye forskningen introduserer SALE (Strategy Auctions for Workload Efficiency), et rammeverk inspirert av frilansmarkedsplasser. I stedet for å forutsi hvilken modell som skal brukes kun ut fra en oppgavebeskrivelse, byr agentene med korte strategiske planer som scores av en systematisk kostnads-verdi-mekanisme.
Hvordan fungerer auksjonen? Hver kandidatagent foreslår en strategisk løsningsplan. En jevnaldrende jury vurderer planer etter forventet verdi. En heuristisk kostnadsprediktor estimerer utførelseskostnaden. Agenten med best kost-verdi-avveining vinner og gjennomfører sin plan.
Selvforbedringsmekanismen er der det blir interessant. Etter hver auksjon lagres alle foreslåtte strategier i en delt minnebank. Billigere agenter som tapte kan lære av vinnende strategier og sende inn raffinerte bud, tilsvarende frilansere som utvikler kompetansen over tid.
På dype søkoppgaver overgår SALE den beste enkeltagentens pass@1 med 3,5 poeng, samtidig som kostnaden reduseres med 35 %. På kodingsoppgaver forbedrer det pass@1 med 2,7 poeng til 25 % lavere kostnad. På tvers av begge domener reduserer SALE avhengigheten av den største agenten med 53 %.
Eksisterende rutere som WTP og FrugalGPT presterer enten dårligere enn den største agenten eller klarer ikke å redusere kostnadene. FrugalGPTs kostnader øker faktisk på komplekse kodeoppgaver, og når 0,61 dollar per million tokens mot den beste agentens 0,36 dollar.
Markedsinspirerte koordineringsmekanismer som organiserer heterogene agenter i adaptive økosystemer, kan systematisk overgå både enkeltmodeller og trente rutingsmetoder.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

20
Topp
Rangering
Favoritter
