المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لا أحد يعرف ما الذي سيحدث
شخص واحد لديه فكرة يمكنه أن يكون "الرئيس التنفيذي" لشركة تضم 10,000 وكيل خلال سنتين
سيكون لديك "البرمجيات كفكرة" وليس كخدمة. عندما تتحدث مليار نسخة، "السرب" يبني الواجهة الخلفية، والواجهة الأمامية، والأمان، والبنية التحتية للتوسع في دقائق.
شهدت الثمانية عشر شهرا الماضية أسرع وتيرة تقدم شهدناها في تاريخ علوم الحاسوب.
أرجوك أن تقرأ عن SWE Pro. تم تصميمه ليكون مقاوما للتلوث. لم أقرأ بعد سببا وجيها لعدم حل هندسة البرمجيات بالكامل بمجرد أن نحصل على 90-100٪ في هذا المعيار. هذه واحدة من أكثر المعايير تعقيدا وصعوبة في التصميم. المهام طويلة جدا، ويجب أن يكون الوكيل قادرا على التعلم من اختباراته الفاشلة خلال نفس الجلسة - في الأساس يجب أن يكون لدى النموذج نوع من التعلم المستمر لتجاوز هذا المعيار.
حصلت معاينة Gemini 2.5 على 13٪
حصلت معاينة Gemini 3 على تقييم 43٪
كلود أوبوس 4.5 يتصدر حاليا بنسبة 45٪ (وفقا للذكاء الاصطناعي المقياسي) — هناك أشخاص في أنثروبي يخبرونك أنهم يشاهدون كلود طوال اليوم ويملؤون الفجوات.
بالتأكيد يمكنك أن تذمر بأنهم متحمسون لقول ذلك، لكن هل لم يكن جدول X الخاص بك خلال الأسبوعين الماضيين مصدوما باستمرار من مدى جودة النماذج في البرمجة؟ خاصة 4.5 أوبوس؟
من الواضح جدا لي أن هندسة البرمجيات ستحل خلال سنتين. حتى لو تضاعفت، لا يوجد ثلاثة أضعاف هذا التخمين، سيكون له تأثير عميق على الناتج المحلي الإجمالي ومتوسط الحياة الأمريكية

الأفضل
المُتصدِّرة
التطبيقات المفضلة
