DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

🧠 Redeneren als de Interface voor Langdurige Opslag In onze laatste post (AMemGym) hebben we benadrukt hoe interactieve evaluatie belangrijk is. Nu passen we het toe op de nieuwste "perfecte" modellen voor langdurige context zoals GPT-5.2. ▪️ De grote vraag: Hebben we langdurige taken opgelost? ▪️ Het antwoord: Niet precies. Het gaat om de redeneren-rekenafweging. Een diepgaande blik op de mechanica van geheugen voor inheemse langdurige context 👇 1. Niet Alleen het Backbone Model GPT-5.2 toont enorme verbeteringen op MRCR benchmarks. Maar toen we de variabelen uit elkaar haalden, ontdekten we dat een groot deel van die verbetering voortkomt uit hoge redenerinspanning, niet alleen het backbone model. 2. De Geheugenvergelijking Een nieuwe manier om de redeneringskosten voor geheugenophaling te bekijken: [ Minimale Redenerinspanning ∝ 1 / Geheugenkwaliteit ] Redeneren fungeert als een adaptieve zoekmachine. Het betaalt de rekenkosten om informatie die niet efficiënt was opgeslagen te "herbinden". 3. AMemGym Resultaten We hebben enkele vlaggenschipmodellen getest op AMemGym (onze ICLR'26 interactieve geheugenbenchmark) om realistische prestaties op lange termijn te evalueren. 🔹 Redeneren is een Vermenigvuldiger: Hoge redenerinspanning is cruciaal voor dynamische, hoge-orde associaties. 🔹 Personalisatie is Moeilijk: Zelfs vlaggenschipmodellen hebben moeite om de gebruikersstatus over lange perioden te behouden. 🔹 Open Gewichten: GLM-4.7 toont sterke potentie, rivaliserend met gesloten modellen. 4. De Toekomst (Voorbij Simulatie): Twee-Weg Deuren x Test-Tijd Schaling Het optimaliseren van geheugen in het wild is mogelijk door "niet-verliesgevende" geheugenpersistentie te combineren met adaptieve test-tijd rekenkracht. Door hoge rekenkracht te besteden aan het verifiëren van logica en het ophalen van diepe gegevens, kunnen modellen/agenten zelfgestuurde feedback genereren om geheugenstructuren te verfijnen. Dit zet dure redenering vandaag om in efficiënte cognitieve snelwegen voor morgen. 📄 Volledige Analyse: ...

Boven

Positie

Favorieten