Uzun Ufuk Kodlama Ajanlarının Kıyaslanması Yapay zeka kodlama ajanları mevcut kodlama kritlerinde etkileyici görünüyor. Ancak bu kıyaslamalar genellikle yanlış bir şeyi optimize eder ve test eder. Bu yeni araştırma, uzun ufuk yazılım evrimi için bir kıstaç olan SWE-EVO'yu tanıtıyor. Yazılım mühendisliği çabalarının %80'ine kadarı, sıfırdan inşa etmek yerine eski kod tabanlarını korumak ve geliştirmek ile ilgilidir. Mevcut ölçütler bunu tamamen gözden kaçırıyor. SWE-EVO, izole sorunları çözmek ile gerçek yazılım evrimi gerçekleştirmek arasındaki boşluğu ortaya koyar. Tek sorunlu düzeltmeler yerine, ajanlar sürüm notlarını yorumlamalı ve ortalama 21 dosyayı kapsayan, ortalama 874 test içeren test paketlerine göre doğrulanan kapsamlı değişiklikler uygulamalıdır. OpenHands ile GPT-5, SWE-Bench Verified ile %65 sağlarken, SWE-EVO'da sadece %21 başarı elde eder. Yazarlar, mevcut ajanların sürdürülebilir, çok dosyalı akıl yürütmede zorlandığını buluyor. Benchmark, scikit-learn, pydantic ve dask dahil olmak üzere yedi olgun açık kaynak Python projesinin çıkış notlarından oluşturulmuştur. Her görev, normalde birden fazla çekme isteği kapsayacak değişikliklerin uygulanmasını gerektirir. Altın yamalar, 21 dosya ve 51 fonksiyon arasında ortalama 610 satır düzenlenmiştir. 11 modeldeki sonuçlar tutarlı kalıplar ortaya koymaktadır. Daha büyük modeller, küçük varyantlardan daha iyi performans gösterir. GPT-5 %21 çözünürlükte bulunurken, GPT-5-mini %10 ve GPT-5-nano %4 çözünürlükte. Sıralama, SWE-Bench performansını yansıtıyor ve SWE-EVO'yu anlamlı bir kısas olarak doğruluyor. Arıza analizi, model yeteneğine göre belirgin kalıplar gösterir. En güçlü modeller esas olarak talimatların takip edilmesinde başarısız olur ve nüanslı çıkış notlarını yanlış yorumlar. Daha zayıf modeller araç kullanımı ve sözdizimi hatalarıyla mücadele eder. Bu, SWE-EVO zorluğunun arayüz yetkinliğinden değil, anlamsal akıl yürütmesinden kaynaklandığını gösterir. Makale: Akademimde etkili yapay zeka ajanları oluşturmayı öğrenin: