المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أفضل 26 ورقة أساسية (+5 موارد إضافية)
لمعالجة نماذج اللغة الكبيرة والمحولات
تربط هذه القائمة بين أسس المحول
مع المنطق، وMoE، والتحول الفاكلي
ترتيب القراءة الموصى به
1. الاهتمام هو كل ما تحتاجه (فاسواني وآخرون، 2017)
> ورقة المحول الأصلية. يغطي الاهتمام الذاتي،
> الانتباه متعدد الرؤوس، وبنية المشفر-مفكك
> (على الرغم من أن معظم نماذج اللغة الكبيرة الحديثة تعتمد فقط على فك الترميز.)
2. المحول المصور (جاي ألامار، 2018)
> باني حدس رائع للفهم
> الانتباه وتدفق الموتر قبل الغوص في التنفيذ
3. BERT: التدريب المسبق على المحولات ثنائية الاتجاه العميقة (ديفلين وآخرون، 2018)
> أساسيات جانب المشفر، نمذجة اللغة المقنعة،
> وتعلم التمثيل الذي لا يزال يشكل العمارة الحديثة
4. نماذج اللغة هي المتعلمون القليلون (GPT-3) (براون وآخرون، 2020)
> إثبات التعلم داخل السياق كحقيقة
> القدرة وغير طريقة فهم التوجيه
5. قوانين القياس لنماذج اللغة العصبية (Kaplan وآخرون، 2020)
> أول إطار عمل تجريبي نظيف للتعديل للمعلمات والبيانات والحوسبة
> اقرأ جنبا إلى جنب مع تشينشيلا لفهم سبب ضعف تدريب معظم العارضين
6. تدريب نماذج اللغة الكبيرة المثالية للحوسبة (تشينشيلا) (هوفمان وآخرون، 2022)
> أثبت أن عدد الرموز أهم من...
الأفضل
المُتصدِّرة
التطبيقات المفضلة
