ULTIME NOTIZIE: Alibaba ha testato 18 agenti di codifica AI su 100 codebase reali, per un totale di 233 giorni ciascuna. hanno fallito in modo spettacolare. si scopre che superare i test una volta è facile. mantenere il codice per 8 mesi senza rompere tutto è dove l'AI collassa completamente. SWE-CI è il primo benchmark che misura la manutenzione del codice a lungo termine invece di correzioni di bug una tantum. ogni compito traccia 71 commit consecutivi di vera evoluzione. Il 75% dei modelli rompe codice precedentemente funzionante durante la manutenzione. solo Claude Opus 4.5 e 4.6 rimangono sopra il 50% di tasso di zero regressione. ogni altro modello accumula debito tecnico che si complica ad ogni singola iterazione. ecco la parte brutale: - HumanEval e SWE-bench misurano "funziona adesso" - SWE-CI misura "funziona ancora dopo 8 mesi di modifiche" gli agenti ottimizzati per il testing snapshot scrivono codice fragile che supera i test oggi ma diventa completamente non manutenibile domani. hanno costruito EvoScore per pesare le iterazioni successive più pesantemente di quelle iniziali. gli agenti che sacrificano la qualità del codice per guadagni rapidi vengono puniti quando le conseguenze si accumulano. la narrativa della codifica AI è appena diventata più onesta. la maggior parte dei modelli può scrivere codice. quasi nessuno può mantenerlo.