Verdent, SWE-bench Verified'da %76,1 puan alarak Claude Sonnet 4.5 ve diğer önde gelen modellerle birlikte en üst kademeye yerleşti. Verdent, gerçek mühendislik çalışmaları için oluşturulmuş çok aracılı bir yapay zeka kodlama sistemidir. Doğrulama öncelikli mimariye sahip bir planla-kodla-doğrula iş akışı aracılığıyla özel alt aracıları düzenler. Daha fazla ayrıntı aşağıda 👇
SWE-bench Verified, gerçek kodlama aracılarını yüceltilmiş otomatik tamamlamadan ayıran karmaşık, çok dosyalı sorunlar olan üretim depolarından gelen gerçek GitHub sorunlarını kullanır. %76,1 pass@1, 4 gerçek mühendislik görevinden 3'ünün otonom olarak çözülmesi anlamına geliyor.
Verdent neden SWE-bench Verified'da öne çıkıyor: Çoklu Model Uyumluluğu: Modelden bağımsız çalışma zamanı, her aşamaya doğru modeli eşleştirir (analiz için Claude, inceleme için GPT-5). Tam şeffaflık ve yapılandırılabilirlik ile tutarlı performans. Otomatik Pilotta Doğrulama: Yerleşik tür denetimi, statik analiz, otomatik yeniden deneme/hata ayıklama döngüleriyle test yürütme. Kod inceleme alt aracıları büyük farkları işler. "Testleri geçmenin" ötesine geçerek "geliştirici amacını karşılamaya" geçer. Her Zaman Görevde: Açık yapılacaklar listesi ilerlemeyi takip eder, uzun oturumlarda bağlamın kaymasını önler. İnsan geliştirici iş akışını adım adım yansıtarak başarı oranını ve belirteç verimliliğini artırır.
Plan-Code-Verify iş akışı: 1. Plan Modu: Yapılandırılmış, düzenlenebilir yürütme planları 2. Alt aracı düzenleme: Uzmanlaşmış aracılar (arayıcı, gözden geçiren, doğrulayıcı) Kişiselleştirilebilir davranışa sahip aracı kurallar (aracılar md) aracılığıyla kullanıcı tanımlı kontrol: dikkat seviyeleri, izinler, işbirliği stilleri 3. DiffLens: Organize farklar + özetlerle net kod dağıtımı 4. Açık ilerleme takibi ile her zaman görevde kalır
Karşılaştırma ölçütlerinin ötesine geçen üretime hazır özellikler: - Uzun ömürlü terminal (tmux tarzı kalıcılık) - Eğik çizgi komutları (/init, /compact, özel otomasyon) - MCP (Model Bağlam Protokolü) desteği - VS Code uzantısı + bağımsız paralel görev uygulaması (Verdent Deck)
Düşünmek Önemlidir: Verdent'in deneyleri, daha fazla muhakeme belirtecinin daha iyi performansa yol açtığını gösteriyor. Modellere daha fazla "düşünme süresi" tanıdıklarında ~%0,7'lik bir iyileşme buldular - bu da aceleye getirilmiş kodun yapay zeka için bile iyi bir kod olmadığını kanıtladı.
Satıcı Farkı: Tüm model sağlayıcılar eşit değildir. Testleri, bazı sağlayıcıların (AWS Bedrock gibi) aynı koşullar altında %1,2'ye varan farkla daha yüksek performans varyansı gösterdiğini ortaya çıkardı. Altyapınızı akıllıca seçin.
Şaşırtıcı Keşif: Verdent'i yalnızca temel araçlara (bash, okuma, yazma, düzenleme) indirgediklerinde, SWE-bench Verified performansı neredeyse hiç değişmedi. Bu, potansiyel kıyaslama yanlılığını ortaya çıkarır - gerçek mühendislik için sofistike araçlar önemlidir, ancak mevcut kıyaslamalar bu karmaşıklığı yakalayamayabilir.
Eski TikTok ve Baidu mühendisleri tarafından inşa edilmiştir. Verdent, GPT-5 ve Sonnet 4.5 gibi sektör lideri modelleri geliştirici merkezli bir sistemde birleştiriyor. Aracılı kodlama, gerçek mühendislik çalışmaları için oluşturulduğunda böyle görünür. Ücretsiz denemeye buradan başlayabilirsiniz:
12,16K