قامت OpenAI مؤخرا بنشر GPT-5.3-Codex-Spark على أجهزة Cerebras ذات المقياس الكبير، محققة 1,000+ رمز/ثانية — أي حوالي 10-20 ضعف أسرع من استدلال بطاقة الرسومات. هذا ليس تحسنا تدريجيا؛ إنه تحول معماري أساسي يجعل التعاون الذكاء الاصطناعي في الوقت الحقيقي ممكنا لأول مرة. --- عنق الزجاجة الذي لا يتحدث عنه أحد إليك السر المرير لاستنتاج الذكاء الاصطناعي: عنقود بطاقة الرسوميات يقضي معظم وقته *ليس في الحوسبة*. عندما تشغل نموذج لغة كبير على بطاقات NVIDIA، تكون عمليات الضرب الفعلية للمصفوفات سريعة. ما يقتلك هو: 1. التواصل بين وحدات معالجة الرسومات — تقسيم نموذج معلمة 175B+ عبر 8 وحدات معالجة رسومات يعني خلط بيانات مستمر 2. عرض النطاق الترددي للذاكرة — HBM سريع، لكنه لا يزال خارج الشريحة 3. الحمل الإضافي — وحدات معالجة الرسومات تحسن معدل النقل وليس التأخير، لذا تنتظر طلبات الدفعات النتيجة؟ حتى في نماذج H100 المتطورة، ستحصل على 50-150 رمزا في الثانية لنماذج الحدود. هذا جيد لأعباء العمل غير المتزامنة. إنه سيء جدا للتفاعل في الوقت الحقيقي. --- سيريبراس: رقاقة واحدة تحكمهم جميعا اتخذت Cerebras نهجا مختلفا جذريا: لا تصنع رقائق، بل تصنع رقائق الرقائق (ويفرز). مواصفات WSE-3 (محرك مقياس الرقاقة 3) مذهلة: نسبة WSE-3 NVIDIA B200 حجم القالب 46,255 مم² ~800 مم² 57x...