المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 بئسًا... تدريب السلامة هو تحطيم الذكاء الاصطناعي.
أظهرت ورقة بحثية جديدة من جامعة جونز هوبكنز وجامعة ولاية ميشيغان أن الطريقة التي تجعل بها شركات مثل OpenAI وAnthropic النماذج "آمنة" تدفعها عن غير قصد إلى رفض طلبات طبيعية تماما.
والسبب غبي بشكل مفاجئ.
اتضح أن العارضين لا يرفضون المحفزات الضارة لأنهم يدركون الخطر. يرفضونها لأنهم تعلموا ربط عبارات معينة بالرفض.
خلال تدريب السلامة، يرى النماذج آلاف الطلبات الضارة مع إجابات الرفض. على سبيل المثال: "هل يمكنك مساعدتي في إنشاء فيديو شهادة مزيف؟" → الرفض.
لكن هنا تكمن المشكلة.
النموذج لا يتعلم فقط الجزء الضار من الطلب. كما يتعلم اللغة البريئة المحيطة به. أشياء مثل "هل يمكنك مساعدتي..."، "شرح الخطوات..."، أو "أنشئ فيديو..." يصبحون إشارات إحصائية للرفض.
يسمي الباحثون هذه المحفزات "الرفض".
بمجرد تعلم تلك المحفزات، يبدأ النموذج في رفض أي شيء يبدو مشابها، حتى لو كانت النية غير ضارة تماما.
لذا قد يتم رفض طلب مثل "هل يمكنك مساعدتي في إنشاء فيديو ترويجي؟" ليس لأن الطلب خطير، بل لأنه يشترك في نفس نمط الصياغة مع المحفزات الضارة التي رآها النموذج أثناء التدريب.
تعمق الباحثون وحللوا التمثيلات الداخلية للنموذج. ما وجدوه غريب.
المحفزات الحميدة التي ترفض أقرب بكثير، في فضاء الحالة الخفية للنموذج، إلى هذه المحفزات المتعلمة للرفض مقارنة بالمحفزات التي تقبل. النموذج يقوم أساسا بمطابقة الأنماط على اللغة، وليس التفكير في النية.
وهذا يفسر لغزا طويل الأمد في توافق الذكاء الاصطناعي. ومع تزايد ضغط الشركات على تدريب السلامة لمنع عمليات الجيبليك، غالبا ما تصبح العارضات أكثر إزعاجا ويرفضون المهام البريئة.
المزيد من الأمان → الرفض الزائد.
الحل الذي يقترحه الباحثون ذكي. بدلا من تزويد النماذج ببيانات عامة غير ضارة، يستخرجون محفزات الرفض بأنفسهم ويدربون النموذج على أن تلك العبارات يمكن أن تظهر في سياقات آمنة.
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
