Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmarking degli Agenti di Codifica a Lungo Termine
Gli agenti di codifica AI sembrano impressionanti nei benchmark di codifica attuali. Ma quei benchmark spesso ottimizzano e testano per la cosa sbagliata.
Questa nuova ricerca introduce SWE-EVO, un benchmark per l'evoluzione del software a lungo termine.
Fino all'80% dello sforzo di ingegneria del software coinvolge la manutenzione e l'evoluzione di codebase legacy piuttosto che costruire da zero. I benchmark attuali mancano completamente di questo. SWE-EVO rivela il divario tra la risoluzione di problemi isolati e l'esecuzione di una vera evoluzione del software.
Invece di correzioni per singoli problemi, gli agenti devono interpretare le note di rilascio e implementare cambiamenti completi che coprono una media di 21 file, convalidati contro suite di test che in media contano 874 test per istanza.
GPT-5 con OpenHands raggiunge il 65% su SWE-Bench Verified ma solo il 21% su SWE-EVO.
Gli autori scoprono che gli agenti attuali faticano con il ragionamento sostenuto su più file.
Il benchmark è costruito a partire dalle note di rilascio di sette progetti Python open-source maturi, tra cui scikit-learn, pydantic e dask. Ogni compito richiede di implementare cambiamenti che normalmente coprirebbero più richieste di pull. Le patch d'oro in media modificano 610 righe su 21 file e 51 funzioni.
I risultati su 11 modelli rivelano schemi coerenti. I modelli più grandi superano le varianti più piccole. GPT-5 risolve il 21% rispetto a GPT-5-mini al 10% e GPT-5-nano al 4%. La classifica rispecchia le prestazioni di SWE-Bench, convalidando SWE-EVO come un benchmark significativo.
L'analisi dei fallimenti mostra schemi distinti in base alla capacità del modello. I modelli più forti falliscono principalmente nel seguire le istruzioni, fraintendendo note di rilascio sfumate. I modelli più deboli faticano con l'uso degli strumenti e gli errori di sintassi. Questo indica che la difficoltà di SWE-EVO deriva dal ragionamento semantico, non dalla competenza nell'interfaccia.
Carta:
Impara a costruire agenti AI efficaci nella mia accademia:

Principali
Ranking
Preferiti
