المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لماذا يفشل عملاء الذكاء الاصطناعي في الوقت والسياق وكيف تجعل بيانات التدريب السيئة الأمر أسوأ!
تقدم ورقة جديدة نقدية رؤية واقعية: معظم عوامل الذكاء الاصطناعي يصبحون خطرين ليس لأنهم يسيئون فهم تعليمات المستخدم، بل لأنهم يسيئون فهم الوقت والسياق بشكل أساسي.
المشكلة الأساسية موضحة بوضوح:
إجراء مثل "تشغيل الميكروويف" آمن فقط إذا لم يكن هناك معدن بداخله. القواعد الثابتة والتحذيرات الغامضة القائمة على الأوامر لا يمكنها اكتشاف ذلك. العديد من المخاطر لا تنشأ من فعل واحد، بل من تسلسل تشغيل الموقد بشكل جيد؛ تشغيله ثم نسيان إيقافه ليس كذلك.
الحل المقترح، RoboSafe، يقدم حواجز حماية أثناء التشغيل تقوم بالتفكير ثنائي الاتجاه:
• الاستدلال الأمامي يفحص حالات المشهد البصري الحالي والجسم قبل السماح بأي إجراء.
• يستعرض التفكير العكسي الإجراءات الأخيرة لاكتشاف الالتزامات غير المنتهية (مثل إجبار الوكيل على إيقاف جهاز كان قد فعله سابقا).
تعبر قيود السلامة كرموز منطقية قابلة للتنفيذ والتحقق منها بدلا من الأوامر غير الموثوقة بلغة طبيعية.
تظهر التجارب أن RoboSafe يقلل من الإجراءات الخطرة بنسبة 36.8٪ مع الحفاظ على أداء المهام تقريبا، ويتفوق على الطرق المعتمدة على الأوامر والثابتة، وحتى يقاوم محاولات الهروب على الأجهزة الروبوتية الفيزيائية.
الدلالة الأعمق لا مفر منها: لا يمكن تحقيق سلامة الوكلاء بالكامل في وقت التدريب. يتطلب النشر في العالم الحقيقي مراقبة نشطة لوقت التشغيل تفهم حقا التسلسلات الزمنية والسياق الموقفي.
لكن لماذا تواجه نماذج اليوم صعوبة عميقة مع الزمن والسياق من الأساس؟
تشير مجموعة متزايدة من الأدلة مباشرة إلى جودة البيانات كالسبب الرئيسي.
تكشف الدراسات الحديثة، بما في ذلك تقييم مدعوم من هيئة الخدمات الصحية الوطنية لنماذج اللغة الكبيرة في سلامة الأدوية، عن نمط بارز: فقد حققت النماذج حساسية مثالية في اكتشاف المشكلات المحتملة لكنها اقترحت التدخل الصحيح بنسبة 46.9٪ فقط من الوقت.
والأهم من ذلك، أن 86٪ من الفشل لم ينتج عن المعرفة المفقودة أو الهلوسات، بل من أخطاء في التفكير السياقي التي تطبق الإرشادات بشكل صارم دون التكيف مع أهداف المريض، أو سوء فهم سير العمل الواقعي، أو التصرف بثقة مفرطة عندما تتطلب حالة عدم اليقين ضبط النفس.
يتكرر هذا الضعف عبر المجالات. تتفوق النماذج في مطابقة الأنماط الفردية لكنها تتردد عندما يتطلب الحكم وعيا دقيقا وموقعا بالوقت والنوايا والنتائج.
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
