$A^3$-Bench 一个新的基准,评估科学推理中的内存驱动机制。它测量模型在推理过程中如何激活“锚点”(核心公式)和“吸引子”(模式/示例)——超越了仅仅检查最终答案。