🚨NOTIZIA DELL'ULTIMO MINUTO: Alibaba ha testato agenti di codifica AI su 100 codebase reali, per un totale di 233 giorni ciascuna. Gli agenti hanno fallito in modo spettacolare. Si scopre che superare i test una volta è facile. Mantenere il codice per 8 mesi senza rompere tutto è dove l'AI collassa. SWE-CI è il primo benchmark che misura la manutenzione del codice a lungo termine invece di correzioni di bug una tantum. Ogni compito tiene traccia di 71 commit consecutivi di vera evoluzione. Il 75% dei modelli AI rompe codice precedentemente funzionante durante la manutenzione. Solo Claude Opus 4 mantiene un tasso di regressione zero superiore al 50%. Ogni altro modello accumula debito tecnico che si complica nel tempo. Ecco la parte brutale: - HumanEval e SWE-bench misurano "funziona adesso" - SWE-CI misura "funziona ancora dopo 6 mesi di modifiche" Gli agenti ottimizzati per il testing snapshot scrivono codice fragile che supera i test oggi ma diventa insostenibile domani. Alibaba ha costruito EvoScore per pesare le iterazioni successive più pesantemente di quelle iniziali. Gli agenti che sacrificano la qualità del codice per guadagni rapidi vengono puniti quando le conseguenze si accumulano. La narrativa sulla codifica AI è appena diventata più onesta: la maggior parte dei modelli può scrivere codice. Quasi nessuno può mantenerlo.