Bir gün Anekdot olarak Claude'a sigorta taleplerimi kazıtıp bir tabloya koymasını istedim. ~30 dakika sürdü, müdahale olmadı Sonra Claude/Gemini benim faydalarımla karşılaştırıyor. Aşırı ücret aldığım 2 yer buldum. SWE dışında ilk kez o ajanlar benim için fark yarattı
METR
METR20 Ara 2025
Görevlerimizde Claude Opus 4.5'in %50 zaman ufkunu yaklaşık 4 saat 49 dakika (%95 güven aralığı 1 saat 49 dakika ile 20 saat 25 dakika arasında) olduğunu tahmin ediyoruz. Diğer güncel modeller için değerlendirmeler üzerinde çalışıyoruz ancak bu, şimdiye kadarki en yüksek yayımlanmış zaman ufukumuz oldu.
Aslında bir ajanın harika bir kullanımı çünkü veriler bir web sayfasında nispeten kolay bulunabilir. Ama tüketilebilir bir formata getirmek sinir bozucu ve zaman alıcı.
Ve haklarınızla karşılaştırmak güçlü çünkü sizin, bir sağlayıcı ve bir sigorta şirketi arasında çok fazla bilgi asimetrisi vardır. Bir LLM'nin savunuculuk yapması, oyun alanını eşitlemek için harika bir yol.
871