$A^3$-Bench Nový benchmark, který hodnotí mechanismy založené na paměti ve vědeckém uvažování. Měří, jak modely aktivují "kotvy" (základní vzorce) a "atraktory" (schémata/příklady) během inference – a to přesahuje pouhou kontrolu konečných odpovědí.