$A^3$-Bench Een nieuwe benchmark die geheugen-gedreven mechanismen in wetenschappelijk redeneren evalueert. Het meet hoe modellen "ankers" (kernformules) en "attractoren" (schema's/voorbeelden) activeren tijdens inferentie—en gaat verder dan alleen het controleren van eindantwoorden.