Bu dünyanın en önemli tablosu ve tamamen patlamış durumda
METR
METR10 Sa Önce
Claude Opus 4.6'nın yazılım görevlerinde %50 zaman ufkunu yaklaşık 14,5 saat (%95 GA 6 saatten 98 saate kadar) olduğunu tahmin ediyoruz. Bu rapor ettiğimiz en yüksek puan tahmini olmasına rağmen, bu ölçüm son derece gürültülü çünkü mevcut görev paketimiz neredeyse doymuş.
Lineer versiyon tamamen çılgınca. süperexponential
Andrew Curran
Andrew Curran10 Sa Önce
Güncelleştirmek.
Deneyimsiz olanlar için bu şu anlam taşıyor: (bünye) görevler, normalde bir insan kullanıcının tamamlaması 14 saat sürerdi ve artık yapay zeka tarafından (çok daha kısa sürede, muhtemelen dakikalarda) %50 olasılıkla yapılabiliyor bu, 2019'dan bu yana 4,5 büyüklük mertebesi demek, GPT-2'den bu yana 26.000 kat artış anlamına geliyor
29