Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Uvažování jako rozhraní pro ukládání dlouhého kontextu
V našem posledním příspěvku (AMemGym) jsme zdůraznili, jak záleží na interaktivním hodnocení. Nyní ji aplikujeme na nejnovější "dokonalé" modely s dlouhým kontextem, jako je GPT-5.2.
▪️ Velká otázka: Vyřešili jsme dlouhodobé úkoly?
▪️ Odpověď: Ne tak docela. Jde o kompromis mezi Rozumem a Výpočtem.
Hluboký ponor do mechaniky paměti pro nativní dlouhý kontext 👇
1. Nejen páteřní model
GPT-5.2 vykazuje obrovské nárůsty oproti benchmarkům MRCR. Ale když jsme rozmotali proměnné, zjistili jsme, že velká část tohoto zisku pochází z vysokého uvažovacího úsilí, ne jen z modelu páteře.
2. Paměťová rovnice
Nový způsob, jak nahlížet na náklady na uvažování při vybavování paměti:
[ Minimální úsilí při uvažování ∝ 1 / Kvalita paměti ]
Uvažování funguje jako adaptivní vyhledávač. Platí výpočetní náklady na "převázání" informací, které nebyly efektivně uloženy.
3. Výsledky AMemGym
Některé vlajkové modely jsme testovali na AMemGym (našem benchmarku interaktivní paměti ICLR'26), abychom vyhodnotili realistický výkon v dlouhodobém horizontu.
🔹 Uvažování je násobitel: Vysoké úsilí při uvažování je klíčové pro dynamické, vyšší řádové asociace.
🔹 Personalizace je obtížná: I vlajkové modely mají problém udržet uživatelský stav po dlouhé horizonty.
🔹 Otevřené váhy: GLM-4.7 vykazuje silný potenciál, který soupeří s uzavřenými modely.
4. Budoucnost (Beyond Simulation): Obousměrné dveře x škálování testovacího času
Optimalizace paměťi v reálném prostředí je možná kombinací "neztrátové" perzistence paměti s adaptivním výpočtem v době testování. Díky vysokému výpočetnímu úsilí na ověření logiky a získání hlubokých dat mohou modely/agenti generovat samostatně řízenou zpětnou vazbu pro zpřesnění paměťových struktur. To proměňuje dnešní drahé uvažování v efektivní kognitivní zkratky pro zítřek.
📄 Kompletní analýza: ...



Top
Hodnocení
Oblíbené
