🚨BREAK: Alibaba, AI kodlama ajanlarını 100 gerçek kod tabanında test etti, her biri 233 gün sürdü. ajanlar olağanüstü başarısız oldu. Meğerse sınavları bir kez geçmek kolaymış. Kodu 8 ay boyunca her şeyi bozmadan korumak yapay zekanın çöktüğünün noktasıdır. SWE-CI, tek atışta hata düzeltmeleri yerine uzun vadeli kod bakımını ölçen ilk kıyastır. Her görev, gerçek evrimin ardışık 71 commit'ini takip eder. Yapay zeka modellerinin %75'i bakım sırasında daha önce çalışan kodu bozuyor. sadece Claude Opus 4 %50'nin üzerinde sıfır regresyon oranını kalıyor. Diğer tüm modeller teknik borç biriktirir ve bu borç tekrarlar boyunca biriktirilir. İşte acımasız kısım: - HumanEval ve SWE-bench ölçümü "şu anda işe yarıyor mu" - SWE-CI önlemleri "6 aylık değişikliklerden sonra hâlâ çalışıyor mu?" Snapshot testi için optimize edilmiş ajanlar, bugün testleri geçen ama yarın sürdürülemez hale gelen kırılgan kodlar yazıyor. Alibaba, EvoScore'u sonraki sürümleri erken sürümlere göre daha ağır ağırlık verecek şekilde geliştirdi. Kod kalitesini hızlı kazanmak için feda eden ajanlar, sonuçlar biriktiğinde cezalandırılır. Yapay zeka kodlama anlatısı daha dürüst oldu: çoğu model kod yazabiliyor. neredeyse hiçbiri bunu koruyamaz.