Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Loistava artikkeli agenttisesta muistista.
LLM-agentit tarvitsevat sekä pitkäaikaista että lyhytaikaista muistia monimutkaisten tehtävien hoitamiseen.
Nykyinen oletuslähestymistapa kuitenkin käsittelee näitä erillisinä komponentteina, joilla jokaisella on omat heuristiikkansa, ohjaimensa ja optimointistrategiansa.
Mutta muisti ei ole kaksi itsenäistä järjestelmää. Se on yksi kognitiivinen prosessi, joka päättää, mitä säilyttää, hakea, tiivistää ja unohtaa.
Tämä uusi tutkimus esittelee AgeMemin, yhtenäisen viitekehyksen, joka integroi pitkäaikaisen ja lyhytkestoisen muistin hallinnan suoraan agentin politiikkaan työkalupohjaisten toimien kautta.
Sen sijaan, että käyttäisi laukaisinpohjaisia sääntöjä tai apumuistinhallintaa, agentti oppii, milloin ja miten kutsua muistitoimintoja: ADD, UPDATE, DELETE pitkäaikaiseen tallennukseen ja NOUTO, YHTEENVETO, SUODATIN kontekstinhallintaan.
Se käyttää kolmivaiheista progressiivista RL-strategiaa. Ensinnäkin malli oppii pitkäaikaisen muistin tallennuksen. Sitten se hallitsee lyhytaikaisen kontekstinhallinnan. Lopuksi se koordinoi molemmat täydellisissä tehtävien asetuksissa.
Muistioperaatioiden sirpaleisten kokemusten käsittelemiseksi he suunnittelevat vaiheittaisen GRPO:n (Group Relative Policy Optimization), joka muuntaa vaiheiden väliset riippuvuudet opittaviksi signaaleiksi.
Tulokset viidessä pitkän aikavälin vertailupisteessä:
> Qwen2.5-7B:llä AgeMem saavuttaa keskiarvon 41,96 verrattuna Mem0:n 37,14:ään, mikä on 13 % parannus.
> Qwen3-4B:llä ero kasvaa: 54,31 vs 44,70. Pelkkä pitkäkestoisen muistin lisääminen antaa +10–14 % hyötyä.
> RL-harjoittelun lisääminen lisää +6 %.
> Täysi yhtenäinen järjestelmä, jossa molemmat muistityypit, saavuttaa jopa +21,7 % parannuksen muistittomaan perustasoon verrattuna.
Yhtenäinen muistinhallinta opittavilla työkalupohjaisilla toiminnoilla ylittää pirstoutuneet heuristiset putket, mahdollistaen agenttien mukautuvan päätöksen muistamisesta ja unohtamisesta tehtävävaatimusten perusteella.
Artikkeli:
...

Johtavat
Rankkaus
Suosikit
