اليوم نشارك كيف تعمل مراقبة الاختلاط الداخلي لدينا في OpenAI – عمل رائع من @Marcus_J_W! 1. نراقب 99.9٪ من جميع حركة وكيل الترميز الداخلية 2. نستخدم نماذج الحدود للكشف /مع وصول إلى CoT 3. لا توجد علامات على التخطيط حتى الآن، لكن اكتشف سلوكيات أخرى غير لائقة