DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Yeni Antropik Araştırmalar: Yapay Zeka ajanlarının özerkliğini uygulamada ölçmek. Claude Code ve API'miz boyunca milyonlarca etkileşimi analiz ederek insanların ajanlara ne kadar özerklik verdiklerini, nerede konuşlandırıldıklarını ve hangi riskleri oluşturabileceklerini anladık. Daha fazlasını okuyun:

Ajanlar, e-posta değerlendirmesinden siber güvenlik araştırmalarına kadar uzanan bağlamlarda zaten konuşlandırılıyor. Bu spektrumu anlamak, güvenli dağıtım için kritik, ancak insanların gerçek dünyada ajanları nasıl kullandığı hakkında şaşırtıcı derecede az şey biliyoruz.

Çoğu Claude Kodu turu kısa (medyan ~45 saniye). Ama en uzun dönüşler özerkliğin nereye gittiğini gösteriyor. Üç ay içinde, 99,9. perdelik tur süresi neredeyse iki katına çıktı, 25 dakikanın altından 45 dakikanın üzerine çıktı. Bu büyüme, model sürümleri arasında sorunsuz ilerler.

Kullanıcılar deneyim kazandıkça, denetim stratejileri değişir. Yeni kullanıcılar her işlemi ayrı ayrı onaylar. 750 oturuma gelindiğinde, oturumların %40'ından fazlası tamamen otomatik onaylanmıştır.

Ama kesintiler deneyimle birlikte artıyor. Yeni kullanıcılar Claude Code'u turların %5'inde kesiyor, daha deneyimli kullanıcılar ise bu oran %9. Bu, her eylemi onaylamaktan gerektiğinde devretme ve kesintiye geçiş yapılmasını önerir.

Claude Code ayrıca soru sormak için durup denetimi teşvik eder. Karmaşık görevlerde, Claude Code açıklama için insanların kesintiye uğramasından iki kat fazla duraklar. Modelleri belirsizliği fark etmesi için eğitmek, önemli ve yeterince takdir edilmeyen bir güvenlik özelliğidir.

API'mizdeki çoğu ajan eylemi düşük risklidir. Araç çağrılarının %73'ünde bir insan döngüde yer alıyor ve sadece %0,8'i geri döndürülemez durumda. Ancak sınırda, ajanların güvenlik sistemleri, finansal işlemler ve üretim dağıtımları üzerinde hareket ettiğini görüyoruz (bazıları değerlendirme olabilir).

API'mizdeki ajanik araç çağrılarının ~%50'sini yazılım mühendisliği oluşturuyor, ancak diğer sektörlerde de yeni kullanımlar görüyoruz. Risk ve özerklik sınırları genişledikçe, görevlendirme sonrası izleme hayati hale gelir. Diğer model geliştiricilerini bu araştırmayı genişletmeye teşvik ediyoruz.

Bu çalışmanın temel dersi, özerkliğin model, kullanıcı ve ürün tarafından birlikte inşa edildiğidir. Sadece konuşlandırma öncesi değerlendirmelerle tam olarak tanımlanamaz. Tam detaylar ve geliştiriciler ile politika yapıcılara önerilerimiz için bloga bakabilirsiniz:

217

En İyiler

Sıralama

Takip Listesi