Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOVÝ výzkum na zlepšení paměti u AI agentů.
(ulož si to)
Jak kontextová okna rostou na miliony tokenů, úzké hrdlo se přesouvá z čisté kapacity na kognitivní kontrolu. Vědět, co víte, co chybí, a kdy přestat, je důležitější než zpracovávat každý token.
Delší kontextová okna nezaručují lepší uvažování. Je to hlavně proto, že způsob, jakým vývojáři dnes pracují s ultra-dlouhými dokumenty, zůstává rozšiřováním kontextového okna nebo kompresí všeho do jednoho průchodu.
Ale když jsou rozhodující důkazy vzácné a rozptýlené na milionu tokenů, pasivní paměťové strategie tiše opouštějí překlenovací fakta potřebná pro vícenásobné uvažování.
Tento nový výzkum představuje InfMem, agent s omezenou pamětí, který aplikuje kognitivní řízení ve stylu System-2 na dlouhé otázky prostřednictvím strukturovaného protokolu PRETHINK–RETRIEVE–WRITE.
Místo pasivního komprimování každého segmentu během jeho streamování InfMem aktivně monitoruje, zda je jeho paměť dostatečná k odpovědi na otázku. Jsou současné důkazy dostatečné? Co chybí? Kde v dokumentu bych měl hledat?
PRETHINK působí jako kognitivní kontrolor, rozhodující, zda zastavit nebo získat další důkazy. Když existují mezery v důkazech, syntetizuje cílený dotaz pro vyhledávání a načítá relevantní pasáže odkudkoli v dokumentu, včetně dřívějších částí, které již prošl. WRITE pak provádí společnou kompresi, integrující získané důkazy s aktuálním segmentem do omezené paměti s pevně stanoveným rozpočtem.
Tréninkový recept využívá SFT rozcvičku k výuce mechaniky protokolů prostřednictvím destilace z Qwen3-32B, poté posilované učení sladí vyhledávání, psaní a zastavování rozhodnutí s přesností koncových úkolů pomocí odměn založených na výsledcích a formování raného zastavení.
Na ultra-dlouhých QA benchmarkech od 32k do 1M tokenů překonává InfMem MemAgent o +10,17, +11,84 a +8,23 průměrných bodů absolutní přesnosti na Qwen3-1,7B, Qwen3-4B a Qwen2,5-7B.
Agent InfMem s 4B parametry udržuje konzistentní přesnost až do 1 milionu tokenů, zatímco standardní základny jako YaRN klesají na jednociferný výkon. Latence inference klesá v průměru 3,9x (až 5,1x) díky adaptivnímu předčasnému zastavení.
Tyto zisky se také přenášejí na LongBench QA, kde InfMem+RL dosahuje až +31,38 absolutního zlepšení jednotlivých úkolů oproti základnímu standardu YaRN.
Článek:
Naučte se vytvářet efektivní AI agenty v naší akademii:

Top
Hodnocení
Oblíbené
