Ajan yeteneklerini🤔 anlamak için ajan transkriptlerini kullanabilir miyiz? Meğerse belki de kodlama ajan transkriptleri, yapay zekadan elde ettiğimiz verimlilik kazanımlarını üst sınırda artırabilir. Son araştırmalarım hakkında daha fazla bilgi @METR_Evals 🧵
Transkriptlerde yer alan görevlerde zaman tasarrufu faktörü = (yapay zeka olmadan zaman) / (yapay zeka ile zaman) Yapay zeka olmadan zamanı, bir LLM yargıcıyla tahmin ediyorum, yapay zeka ile olan zamanı her 10 dakikalık pencerede insan tipi mesaj olup olmadığını inceleyerek hesaplıyorum, ardından tüm aktif pencereleri toplayorum.
Ancak bu, gerçek verimlilik artışını birçok açıdan fazla tahmin ediyor! !️ 1. İnsanlar yapay zekaları düşük değerli görevlerde kullanır, normalde yapmazlar. Bunlara Cadillac görevleri diyoruz 2. Birçok görevi yapay zeka olmadan yapıyoruz ve sadece faydalı olmasını bekledikleri görevlerde kullanıyoruz
tom cunningham
tom cunningham22 Oca 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. LLM yargıcı, a) işçi uzmanlaşması, b) başarısız görevleri tespit etme kapasitesinin sınırlılığı, c) ajanın kaynaklı ek yükü ve d) transkriptler arasında kaydedilmemiş ilerleme gibi nedenlerle, yapay zeka olmadan aynı görevi yapmanın ne kadar süreceğini abartma eğiliminde olur
İlginçtir ki, zaman tasarrufu faktörünün, paralel çalışan ajan sayısıyla ilişkili olduğunu da görüyorum. Bu, gelecekteki yükseliş ve transkript çalışmalarının ajan eşzamanlılığını doğru şekilde dikkate alması gerektiğini gösteriyor.
466