هذا هو أهم مخطط في العالم، وهو يذهب إلى جنون شديد
METR
METRمنذ 8 ساعاتٍ
نقدر أن كلود أوبوس 4.6 لديه أفق زمني يبلغ حوالي 50٪ من 14.5 ساعة (فاصل الثقة 95٪ من 6 ساعات إلى 98 ساعة) في مهام البرمجيات. بينما هذا هو أعلى تقدير نقاط أبلغنا عنه، إلا أن هذا القياس صاخب جدا لأن مجموعة المهام الحالية لدينا شبه مشبعة.
النسخة الخطية مجنونة تماما. فائق الأسي
لمن لا يعرف، هذا يعني: (بعض المهام) التي عادة ما تستغرق من المستخدم البشري 14 ساعة لإكمالها، يمكن الآن إنجازها بواسطة الذكاء الاصطناعي (في وقت أقصر بكثير، وربما دقائق) باحتمال 50٪ وهذا يعادل 4.5 مرتبة من الدرجة منذ 2019، أو زيادة قدرها 26,000 مرة منذ GPT-2
‏‎19‏