المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أخيرا، الورقة النهائية في بحثي للدكتوراه
🧮 تعلم التفكير في 13 معلمة 🧮
نطور طريقة TinyLoRA، وهي طريقة جديدة لتحويل القدم. مع TinyLoRA + RL، تتعلم النماذج جيدا مع عشرات أو مئات المعلمات
مثال: نستخدم فقط 13 معاملة لتدريب نموذج Qwen 7B من 76 إلى 91٪ على GSM8K 🤯

هناك ورقة بحثية أحبها من عام 2018 بعنوان "لعب أتاري مع ستة عصبونات". وقد أعطى ذلك سابقة بأن التعلم الواقعي يمكنه تعلم بعض "البرامج" التي تستوعب عددا قليلا جدا من البايتات
ومع ذلك، أصغر تعديل دقيق يقوم به الناس عادة هذه الأيام هو LoRA برتبة =1، والذي لا يزال يستخدم ملايين المعايير... 🤔
وصلنا إلى هنا كانت التفكير في حجم "البرنامج" الذي يمكن أن يعلم LLaMA أو Qwen كيف يعقلان. 3 ملايين معلم في bf16 تأخذ 6 ميجابايت. هل يبدو هذا كبيرا جدا؟
نظريتنا: إذا كانت كل حلقة من التعلم الواقعي ترسل حوالي 1 بت، يجب أن نكون قادرين على ترميز مثل GSM8K ببيانات أقل بكثير...

ولاحظ أن هذا *لا* يعمل مع SFT. ببساطة، لتقليل الخسارة بالكامل مع SFT، عليك حفظ جميع رموز الإخراج بثقة 100٪. هذا يتطلب الكثير من الأجزاء
وبالتالي، نحتاج إلى أحجام تحديث أكبر لنماذج SFT إلى أداء جيد:
(المزيد عن هذا في القسم 3)

هذا ليس مجرد قطعة أثرية من GSM8K أو أي نموذج محدد
في جميع مجموعات البيانات التي جربناها (MATH، AIME، Minerva...)، نستطيع استعادة >90٪ من مكاسب الأداء من خلال تدريب مئات المعلمات (باستثناء AMC، الذي يتطلب أحيانا آلافا)

من التفاصيل الهندسية الممتعة أن من الصعب جدا تنفيذ التعلم المعزز بأشكال LoRA مختلفة، لأن التعلم المعزز للنماذج اللغوية الكبيرة يتطلب استنتاجا سريعا، وهذا يتطلب تنفيذا على مستوى الأجهزة (النواة)
تجاوزت هذا الأمر بدمج أوزان LoRA في كل عملية إطلاق ثم فصلها للتدريب. في الواقع، ليس بطيئا جدا. هناك بعض التفاصيل الإضافية في الورقة وسأشارك الكود قريبا
94
الأفضل
المُتصدِّرة
التطبيقات المفضلة
