$A^3$-Bench
Nowy benchmark, który ocenia mechanizmy oparte na pamięci w rozumowaniu naukowym. Mierzy, jak modele aktywują "kotwice" (kluczowe formuły) i "atraktory" (schematy/przykłady) podczas wnioskowania—wykraczając poza jedynie sprawdzanie końcowych odpowiedzi.
Meta właśnie opublikowało benchmark MapAnything na Hugging Face
Uniwersalna ocena rekonstrukcji 3D w zadaniach wieloobrazowych stereo, głębokości i pozycji kamery. Benchmarkuj modele feed-forward na różnorodnych scenach z rzeczywistego świata z ustandaryzowanymi metrykami.