Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bygge med AI-agenter @dair_ai • Forrige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Jeg deler innsikt om hvordan du bygger med LLM-er og AI-agenter ⬇️
Enda en hit av Anthropic Engineering-teamet.
De masseparalleliserte 16 Claude-instanser for å bygge en full C-kompilator fra bunnen av.
100 000 linjer med Rust. Kompilerer Linux-kjernen. Ingen aktiv menneskelig tilsyn.
Det villeste er ikke engang selve kompilatoren. Det er at de har bygget et system der agenter autonomt plukker opp oppgaver, låser filer for å unngå konflikter, og git synkroniserer med hverandre som et eksternt utviklingsteam.
Ser inspirert ut av Ralph Loop.
2 milliarder input-tokens, 140 millioner output-tokens, 2 uker og 20 000 dollar i totalkostnad.
Hvis du fortsatt skriver kode én fil om gangen i én økt, undervurderer du kraftig hvor dette bærer hen.
Agent-svermer som koordinerer på ekte kodebaser er ikke lenger en ting i fremtiden. De er en greie akkurat nå.
2026 ser ut til å bli året for agentseler. Og det kule er at du kan bygge opp agentteamet ditt med Claude Code nå.

432
NY forskning på å forbedre hukommelsen for AI-agenter.
(bokmerk det)
Etter hvert som kontekstvinduer skalerer til millioner av tokens, skifter flaskehalsen fra rå kapasitet til kognitiv kontroll. Å vite hva du vet, vite hva som mangler, og vite når du skal stoppe, betyr mer enn å bearbeide hver eneste token.
Lengre kontekstvinduer garanterer ikke bedre resonnement. Dette skyldes i stor grad at måten utviklere håndterer ultralange dokumenter på i dag, fortsatt utvider kontekstvinduet eller komprimerer alt til ett enkelt pass.
Men når avgjørende bevis er sparsomme og spredt over en million tokens, forkaster passive minnestrategier stille de broleggende fakta som trengs for multi-hop resonnement.
Denne nye forskningen introduserer InfMem, en agent med begrenset minne som anvender System-2-lignende kognitiv kontroll på svar på lange dokumenter gjennom en strukturert PRETHINK–RETRIEVE–WRITE-protokoll.
I stedet for passivt å komprimere hvert segment mens det strømmer gjennom, overvåker InfMem aktivt om minnet er tilstrekkelig til å svare på spørsmålet. Er de nåværende bevisene tilstrekkelige? Hva mangler? Hvor i dokumentet bør jeg lete?
PRETHINK fungerer som en kognitiv kontrollør, og avgjør om de skal stoppe eller hente inn mer bevis. Når det finnes bevishull, syntetiserer den en målrettet hentingsforespørsel og henter relevante passasjer fra hvor som helst i dokumentet, inkludert tidligere seksjoner den allerede har passert. WRITE utfører deretter felles komprimering, og integrerer hentet bevis med det nåværende segmentet i et begrenset minne under et fast budsjett.
Treningsoppskriften bruker en SFT-oppvarming for å lære protokollmekanikk gjennom destillasjon fra Qwen3-32B, deretter tilpasser forsterkningslæring henting, skriving og stopp beslutninger med sluttoppgavens korrekthet ved hjelp av resultatbaserte belønninger og tidlig stoppforming.
På ultralange QA-benchmarks fra 32 000 til 1 million tokens overgår InfMem MemAgent med +10,17, +11,84 og +8,23 gjennomsnittlige absolutte nøyaktighetspoeng på henholdsvis Qwen3-1,7B, Qwen3-4B og Qwen2,5-7B.
En InfMem-agent med 4B parametere opprettholder konsistent nøyaktighet opp til 1 million tokens, mens standard baselines som YaRN kollapser til ensifret ytelse. Slutningslatensen faller i gjennomsnitt med 3,9 ganger (opptil 5,1 ganger) via adaptiv tidlig stopping.
Disse gevinstene overføres også til LongBench QA, hvor InfMem+RL oppnår opptil +31,38 absolutt forbedring på individuelle oppgaver sammenlignet med YaRN-baseline.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

38
Topp
Rangering
Favoritter
