$A^3$-Bangku Tolok ukur baru yang mengevaluasi mekanisme berbasis memori dalam penalaran ilmiah. Ini mengukur bagaimana model mengaktifkan "jangkar" (rumus inti) dan "penarik " (skema/contoh) selama inferensi—lebih dari sekadar memeriksa jawaban akhir.