Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Können KI-Coding-Agenten veröffentlichte sozialwissenschaftliche Ergebnisse reproduzieren?
In einer neuen Arbeit mit @_mohsen_m, Fabrizio Gilardi und @j_a_tucker stellen wir SocSci-Repro-Bench vor – ein Benchmark von 221 Reproduzierbarkeitsaufgaben aus 54 Artikeln – und bewerten zwei fortschrittliche Coding-Agenten: Claude Code und Codex.
Die Ergebnisse zeigen sowohl bemerkenswerte Fähigkeiten als auch neue Risiken für KI-unterstützte Wissenschaft.
------------------------------------
GOAL
--------
Ein zentrales Designziel war die Trennung von zwei verschiedenen Problemen:
1️⃣ Sind die Replikationsmaterialien selbst reproduzierbar?
2️⃣ Können KI-Agenten Ergebnisse reproduzieren, wenn die Materialien ausführbar sind?
Um die Leistung der Agenten zu isolieren, haben wir nur Aufgaben einbezogen, deren Ausgaben über drei unabhängige manuelle Ausführungen identisch waren.
------------------------------------
DESIGN
--------
Die Agenten erhielten:
• anonymisierte Daten + Code
• eine sandboxed Ausführungsumgebung
Sie mussten autonom:
• Abhängigkeiten installieren
• fehlerhaften Code debuggen
• die Pipeline ausführen
• die angeforderten Ergebnisse extrahieren
Kurz gesagt: End-to-End rechnerische Reproduktion.
------------------------------------
ERGEBNISSE...

Top
Ranking
Favoriten
