هل يمكننا استخدام نصوص الوكلاء لفهم قدرات🤔 الوكلاء؟ اتضح أن برمجة نصوص وكلاء الترجمة قد تحد من مكاسب إنتاجيتنا من الذكاء الاصطناعي. المزيد حول أحدث بحثي @METR_Evals في 🧵
عامل توفير الوقت = (وقت بدون ذكاء اصطناعي) / (وقت مع الذكاء الاصطناعي) على المهام الواردة في السجلات أقدر الوقت بدون الذكاء الاصطناعي باستخدام حكم نموذج اللغة الكبيرة، وأحسب الوقت باستخدام الذكاء الاصطناعي من خلال النظر عما إذا كانت هناك رسالة مكتوبة من قبل الإنسان في كل نافذة مدتها 10 دقائق، ثم أجمع كل النوافذ النشطة.
ومع ذلك، هذا يبالغ في تقدير الزيادة الحقيقية للإنتاجية بطرق عديدة! !️ 1. يستخدم الناس الذكاء الاصطناعي في مهام منخفضة القيمة لا يفعلونها لولا ذلك. نسميها مهام كاديلاك 2. نقوم بالعديد من المهام بدون الذكاء الاصطناعي، ونستخدم الذكاء الاصطناعي فقط في المهام التي يتوقعون فيها أن يكون مفيدا
tom cunningham
tom cunningham‏22 يناير 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. يميل حكم نماذج اللغة الكبيرة إلى المبالغة في تقدير المدة التي كان سيستغرقها الشخص لأداء نفس المهمة بدون الذكاء الاصطناعي بسبب أ) تخصص الموظف، ب) القدرة المحدودة على اكتشاف المهام الفاشلة، ج) الحمل الزائد الناتج عن الوكلاء، و د) التقدم الذي يلغي بين النصوص، إلخ
ومن المثير للاهتمام أنني أجد أيضا أن عامل توفير الوقت مرتبط بعدد الوكلاء الذين يعملون معهم بالتوازي. وهذا يشير إلى أن الدراسات المستقبلية للرفع والسجلات يجب أن تأخذ التزامن مع الوكلاء في الاعتبار بشكل صحيح.
‏‎468‏