DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Benchmarking degli Agenti di Codifica a Lungo Termine Gli agenti di codifica AI sembrano impressionanti nei benchmark di codifica attuali. Ma quei benchmark spesso ottimizzano e testano per la cosa sbagliata. Questa nuova ricerca introduce SWE-EVO, un benchmark per l'evoluzione del software a lungo termine. Fino all'80% dello sforzo di ingegneria del software coinvolge la manutenzione e l'evoluzione di codebase legacy piuttosto che costruire da zero. I benchmark attuali mancano completamente di questo. SWE-EVO rivela il divario tra la risoluzione di problemi isolati e l'esecuzione di una vera evoluzione del software. Invece di correzioni per singoli problemi, gli agenti devono interpretare le note di rilascio e implementare cambiamenti completi che coprono una media di 21 file, convalidati contro suite di test che in media contano 874 test per istanza. GPT-5 con OpenHands raggiunge il 65% su SWE-Bench Verified ma solo il 21% su SWE-EVO. Gli autori scoprono che gli agenti attuali faticano con il ragionamento sostenuto su più file. Il benchmark è costruito a partire dalle note di rilascio di sette progetti Python open-source maturi, tra cui scikit-learn, pydantic e dask. Ogni compito richiede di implementare cambiamenti che normalmente coprirebbero più richieste di pull. Le patch d'oro in media modificano 610 righe su 21 file e 51 funzioni. I risultati su 11 modelli rivelano schemi coerenti. I modelli più grandi superano le varianti più piccole. GPT-5 risolve il 21% rispetto a GPT-5-mini al 10% e GPT-5-nano al 4%. La classifica rispecchia le prestazioni di SWE-Bench, convalidando SWE-EVO come un benchmark significativo. L'analisi dei fallimenti mostra schemi distinti in base alla capacità del modello. I modelli più forti falliscono principalmente nel seguire le istruzioni, fraintendendo note di rilascio sfumate. I modelli più deboli faticano con l'uso degli strumenti e gli errori di sintassi. Questo indica che la difficoltà di SWE-EVO deriva dal ragionamento semantico, non dalla competenza nell'interfaccia. Carta: Impara a costruire agenti AI efficaci nella mia accademia:

Principali

Ranking

Preferiti