سؤال شائع في مقابلة ماجستير اللغة القانونية: "اشرح المراحل الأربع لتدريب نماذج اللغة الكبيرة من الصفر." (شرح خطوة بخطوة أدناه)
هناك أربع مراحل رئيسية لبناء نماذج اللغة الكبيرة من الصفر: - التدريب المسبق - ضبط التعليمات بدقة - ضبط التفضيلات بدقة - ضبط الاستدلال الدقيق دعونا نفهم كل واحد منهم! 0️⃣ نموذج اللغة الكبير المهيأ عشوائيا في هذه المرحلة، النموذج لا يعرف شيئا. تسأله "ما هو LLM؟" وتحصل على كلام غير مفهوم مثل "جرب بيتر هاند وهيلو 448Sn". لم ير أي بيانات بعد ولديه أوزان عشوائية فقط. 1️⃣ التدريب المسبق تعلم هذه المرحلة نموذج اللغة الأساسية من خلال تدريبه على مجموعات ضخمة للتنبؤ بالرمز التالي. بهذه الطريقة، يمتص القواعد والمعلومات حول العالم، وما إلى ذلك. لكنها ليست جيدة في المحادثة لأنه عندما يطلب منها، تستمر في النص. 2️⃣ ضبط التعليمات لجعلها حوارية، نقوم بضبط التعليمات بدقة من خلال التدريب على أزواج التعليم-الاستجابة. هذا يساعده على تعلم كيفية اتباع التعليمات وتنسيق الردود. الآن يمكنها: - الإجابة على الأسئلة - تلخيص المحتوى - كتابة الشيفرة، وما إلى ذلك. في هذه المرحلة، من المحتمل أن يكون لدينا: - استغل كامل أرشيف الإنترنت الخام والمعرفة. - الميزانية لبيانات استجابة التعليمات الموسومة من قبل البشر. فماذا يمكننا أن نفعل لتحسين النموذج أكثر؟ ندخل مجال التعلم المعزز (RL). 3️⃣ ضبط التفضيل الدقيق (PFT) لابد أنك رأيت شاشة على ChatGPT تسأل: أي رد تفضل؟ هذا ليس فقط للحصول على ملاحظات، بل هو بيانات تفضيلات بشرية قيمة. تستخدم OpenAI هذا لضبط نماذجها بدقة باستخدام الضبط الدقيق التفضيلي. في PFT: يختار المستخدم بين ردين لإنتاج بيانات تفضيلات بشرية. ثم يتم تدريب نموذج المكافأة على التنبؤ بتفضيل الإنسان، ويتم تحديث نموذج اللغة الكبيرة باستخدام التعلم المنطقي. تسمى العملية أعلاه RLHF (التعلم المعزز مع تغذية الفعل البشرية)، والخوارزمية المستخدمة لتحديث أوزان النماذج تسمى PPO. يعلم النموذج اللغوي أن يتوافق مع البشر حتى عندما لا يكون هناك جواب "صحيح". لكن يمكننا تحسين الماجستير الكبير أكثر. 4️⃣ ضبط المنطق الدقيق في مهام التفكير (الرياضيات، المنطق، إلخ)، عادة ما يكون هناك إجابة صحيحة واحدة فقط وسلسلة محددة من الخطوات للحصول على الإجابة. لذا لا نحتاج إلى تفضيلات بشرية، ويمكننا استخدام الصوابية كإشارة. الخطوات: - يولد النموذج إجابة على الطلب. - يتم مقارنة الإجابة بالإجابة الصحيحة المعروفة. - بناء على الصحة، نحدد مكافأة. يسمى هذا التعلم المعزز مع مكافآت قابلة للتحقق. تقنية GRPO من DeepSeek هي تقنية شائعة. كانت تلك هي المراحل الأربع لتدريب ماجستير اللغة من الصفر. - ابدأ بنموذج يتم تهيئة عشوائيا. - تدريبه مسبقا على مجموعات واسعة النطاق. - استخدم ضبط التعليمات بدقة لجعلها تتبع الأوامر. - استخدم ضبط التفضيل والمنطق لتحسين الاستجابات. 👉 الآني لك: كيف ستحسن تخصصك في الماجستير الكبير أكثر؟
‏‎12.35‏K