Czy agenci kodowania AI mogą reprodukować opublikowane wyniki badań nauk społecznych? W nowej pracy z @_mohsen_m, Fabrizio Gilardi i @j_a_tucker, wprowadzamy SocSci-Repro-Bench — benchmark 221 zadań reprodukcyjnych z 54 artykułów — i oceniamy dwóch nowoczesnych agentów kodowania: Claude Code i Codex. Wyniki ujawniają zarówno niezwykłe możliwości, jak i nowe ryzyka dla nauki wspomaganej przez AI. ------------------------------------ GOAL -------- Kluczowym celem projektowym było oddzielenie dwóch różnych problemów: 1️⃣ Czy materiały replikacyjne same w sobie są reprodukowalne? 2️⃣ Czy agenci AI mogą reprodukować wyniki, gdy materiały są wykonalne? Aby wyizolować wydajność agenta, uwzględniliśmy tylko zadania, których wyniki były identyczne w trzech niezależnych ręcznych wykonaniach. ------------------------------------ DESIGN -------- Agenci otrzymali: • zanonimizowane dane + kod • środowisko wykonawcze w piaskownicy Musieli autonomicznie: • zainstalować zależności • debugować uszkodzony kod • wykonać pipeline • wyodrębnić żądane wyniki Krótko mówiąc: end-to-end reprodukcja obliczeniowa. ------------------------------------ WYNIKI...