Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Redeneren als de Interface voor Langdurige Opslag
In onze laatste post (AMemGym) hebben we benadrukt hoe interactieve evaluatie belangrijk is. Nu passen we het toe op de nieuwste "perfecte" modellen voor langdurige context zoals GPT-5.2.
▪️ De grote vraag: Hebben we langdurige taken opgelost?
▪️ Het antwoord: Niet precies. Het gaat om de redeneren-rekenafweging.
Een diepgaande blik op de mechanica van geheugen voor inheemse langdurige context 👇
1. Niet Alleen het Backbone Model
GPT-5.2 toont enorme verbeteringen op MRCR benchmarks. Maar toen we de variabelen uit elkaar haalden, ontdekten we dat een groot deel van die verbetering voortkomt uit hoge redenerinspanning, niet alleen het backbone model.
2. De Geheugenvergelijking
Een nieuwe manier om de redeneringskosten voor geheugenophaling te bekijken:
[ Minimale Redenerinspanning ∝ 1 / Geheugenkwaliteit ]
Redeneren fungeert als een adaptieve zoekmachine. Het betaalt de rekenkosten om informatie die niet efficiënt was opgeslagen te "herbinden".
3. AMemGym Resultaten
We hebben enkele vlaggenschipmodellen getest op AMemGym (onze ICLR'26 interactieve geheugenbenchmark) om realistische prestaties op lange termijn te evalueren.
🔹 Redeneren is een Vermenigvuldiger: Hoge redenerinspanning is cruciaal voor dynamische, hoge-orde associaties.
🔹 Personalisatie is Moeilijk: Zelfs vlaggenschipmodellen hebben moeite om de gebruikersstatus over lange perioden te behouden.
🔹 Open Gewichten: GLM-4.7 toont sterke potentie, rivaliserend met gesloten modellen.
4. De Toekomst (Voorbij Simulatie): Twee-Weg Deuren x Test-Tijd Schaling
Het optimaliseren van geheugen in het wild is mogelijk door "niet-verliesgevende" geheugenpersistentie te combineren met adaptieve test-tijd rekenkracht. Door hoge rekenkracht te besteden aan het verifiëren van logica en het ophalen van diepe gegevens, kunnen modellen/agenten zelfgestuurde feedback genereren om geheugenstructuren te verfijnen. Dit zet dure redenering vandaag om in efficiënte cognitieve snelwegen voor morgen.
📄 Volledige Analyse: ...



Boven
Positie
Favorieten
