$A^3$-Bench Nowy benchmark, który ocenia mechanizmy oparte na pamięci w rozumowaniu naukowym. Mierzy, jak modele aktywują "kotwice" (kluczowe formuły) i "atraktory" (schematy/przykłady) podczas wnioskowania—wykraczając poza jedynie sprawdzanie końcowych odpowiedzi.