Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gli agenti di codifica AI possono riprodurre i risultati pubblicati delle scienze sociali?
In un nuovo lavoro con @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, introduciamo SocSci-Repro-Bench — un benchmark di 221 compiti di riproducibilità tratti da 54 articoli — e valutiamo due agenti di codifica all'avanguardia: Claude Code e Codex.
I risultati rivelano sia capacità notevoli che nuovi rischi per la scienza assistita dall'AI.
------------------------------------
GOAL
--------
Un obiettivo chiave del design era separare due problemi diversi:
1️⃣ I materiali di replicazione stessi sono riproducibili?
2️⃣ Gli agenti AI possono riprodurre risultati quando i materiali sono eseguibili?
Per isolare le prestazioni degli agenti, abbiamo incluso solo compiti i cui output erano identici in tre esecuzioni manuali indipendenti.
------------------------------------
DESIGN
--------
Gli agenti hanno ricevuto:
• dati + codice anonimizzati
• un ambiente di esecuzione sandboxed
Dovevano autonomamente:
• installare dipendenze
• debugare codice rotto
• eseguire la pipeline
• estrarre i risultati richiesti
In breve: riproduzione computazionale end-to-end.
------------------------------------
RISULTATI...

Principali
Ranking
Preferiti
