Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mohou AI kódující agenti reprodukovat publikované poznatky ze společenských věd?
V nové práci s @_mohsen_m, Fabriziem Gilardim a @j_a_tucker představujeme SocSci-Repro-Bench — benchmark 221 reprodukovatelných úkolů z 54 článků — a hodnotíme dva frontier coding agenty: Claude Code a Codex.
Výsledky odhalují jak pozoruhodné schopnosti, tak nová rizika pro vědu podporovanou umělou inteligencí.
------------------------------------
CÍL
--------
Klíčovým cílem návrhu bylo oddělit dva různé problémy:
1️⃣ Jsou replikační materiály samy o sobě reprodukovatelné?
2️⃣ Mohou AI agenti reprodukovat výsledky, když jsou materiály spustitelné?
Pro izolaci výkonu agenta jsme zahrnuli pouze úlohy, jejichž výstupy byly totožné ve třech nezávislých ručních provedeních.
------------------------------------
KONSTRUKCE
--------
Obdrželi agenti:
• anonymizovaná data + kód
• prostředí pro popravu v sandboxu
Museli autonomně:
• instalační závislosti
• ladění nefunkčního kódu
• spustit pipeline
• extrahovat požadované výsledky
Stručně řečeno: end-to-end výpočetní reprodukce.
------------------------------------
VÝSLEDKY...

Top
Hodnocení
Oblíbené
