🔥 أصدرت ByteDance للتو Doubao-Seed-1.8 (نموذج Agent) — وهنا تقييم معمق من مساهم Zhihu توياما ناو 👀 🔮 ملخص؛ ملخص: فتح عيني وسط الفوضى. طوال عام 2025، بقيت طرازات فريق Seed 1.5 و1.6 ثابتة في الدرجة الأولى في الصين والدرجة الثانية العالمية. منذ الإصدار 1.5، ضاعفت Seed تركيزا على النمذجة متعددة الوسائط الموحدة، وهو رهان نادر نسبيا بين النماذج المحلية. مع ذلك، تعرض Seed-1.6 لانتقادات شديدة: فقد عزز التعلم الواقعي واسع النطاق درجات المعيار، لكن التعميم الواقعي كان متأخرا عن Qwen3 وكان بعيدا عن كونه رائدا عالميا. مع توجه GLM وMiniMax إلى تطبيقات الوكلاء، تركت قدرات دوباو الضعيفة كعميل اللعبة في صعوبة. ومع ذلك، لم تكن عودة Seed-1.8 إلى المستوى الأول مفاجئة — فالمفاجأة هي الكفاءة (الشكل 1)! !️ تصل النسخة المتوسطة إلى نفس ذكاء Seed-1.6 باستخدام 5K token بدلا من 15K، بسعر دخول قدره ¥2، مما يجعلها فعالة للغاية من حيث التكلفة — وهو مسار يذكرنا ب DeepSeek. الفئة العالية تتناسب مع المنطق بميزانيات أكبر وتقترب بشكل ملحوظ من أفضل الطرازات الأمريكية. مع رؤية قوية وفهم متعدد الوسائط، بالإضافة إلى توليد الصور والفيديو التي تتأخر بنصف خطوة فقط — من العدل أن نطلق على Seed اسم "الجوزاء الصغير". حيث يتحسن 🚀 1️⃣ التفكير في السلسلة الطويلة: يحافظ Seed-1.8 على تركيز على CoT أطول بكثير، مع التحقق الدقيق من الفروع للوصول إلى الحلول الصحيحة. تأتي قوته أكثر من الانتباه المستمر والبحث الشامل بدلا من التجريد العميق البشري. لا تزال Gemini 3 Pro وGPT-5.2 تحقق درجات أعلى مع ~60٪ من الرموز — وهو مؤشر على ذكاء خام أقوى. 2️⃣ استخراج المعلومات: دقة عالية، لكنها غير فعالة. يميل Seed-1.8 إلى إعادة صياغة وتوضيح النص المصدري الكامل خلال CoT. مهمة استخراج بسيطة بقيمة 10 آلاف قد تكلف 2× رمز، وتنخفض الدقة بشكل حاد عند ميزانيات الاستدلال المنخفضة. بدون تفعيل المنطق، يصبح الاستخراج شبه غير قابل للاستخدام. (يتولى Gemini 3 Pro نفس المهمة في ~4K رمز.) 3️⃣ البرمجة: تاريخيا نقطة ضعف، لكنها تتحسن. يرث Seed-1.8 مكاسب من نموذج الكود الحديث ويستخدم في ترميز "vibe" بنسبة 0→1. لا تزال بعيدة عن نماذج الهندسة من المستوى الأول — خاصة في التفكير على مستوى النظام. حيث لا يزال يقصر ⚠️ 1️⃣ التماسك متعدد الأدوار: أفضل من Seed-1.6، الذي أصبح الآن "قابلا للاستخدام تقريبا"، لكنه لا يزال يواجه صعوبة في تتبع الأهداف باستمرار عبر المحادثات الطويلة. بعد ~10+ دورات، ينحرف المنطق. 2️⃣ الذكاء المكاني: عروض تدريب محدودة. الأداء في التفكير المكاني ثنائي الأبعاد وثلاثي الأبعاد بالكاد يتحسن أكثر من 1.6. 🧠 اللقطة النهائية لقد شكلت استراتيجية الجيميني الموحدة متعددة الوسائط خندقا قويا بالفعل. معظم النماذج الصينية لا تزال في منافسة تركز على النص. كان قرار بايت دانس المبكر بالسعي نحو تعدد الوسائط الموحدة صحيحا — لكن الديون التاريخية تثقل كثبيتها....