هناك ربما ~20-25 ورقة مهمة. إذا طبقت هذه النماذج ستكون قد استحوذت على ~90٪ من العنصر الأساسي وراء نماذج اللغة الكبيرة الحديثة. كل شيء آخر هو زينة. هل تريد تلك القائمة؟ لا داعي للبحث بعد الآن... أفضل 26 ورقة أساسية (+5 موارد إضافية) لمعالجة نماذج اللغة الكبيرة والمحولات تربط هذه القائمة بين أسس المحول مع المنطق، وMoE، والتحول الفاكلي ترتيب القراءة الموصى به 1. الاهتمام هو كل ما تحتاجه (فاسواني وآخرون، 2017) > ورقة المحول الأصلية. يغطي الاهتمام الذاتي، > الانتباه متعدد الرؤوس، وبنية المشفر-مفكك > (على الرغم من أن معظم نماذج اللغة الكبيرة الحديثة تعتمد فقط على فك الترميز.) 2. المحول المصور (جاي ألامار، 2018) > باني حدس رائع للفهم > الانتباه وتدفق الموتر قبل الغوص في التنفيذ 3. BERT: التدريب المسبق على المحولات ثنائية الاتجاه العميقة (ديفلين وآخرون، 2018) > أساسيات جانب المشفر، نمذجة اللغة المقنعة، > وتعلم التمثيل الذي لا يزال يشكل العمارة الحديثة 4. نماذج اللغة هي المتعلمون القليلون (GPT-3) (براون وآخرون، 2020) > إثبات التعلم داخل السياق كحقيقة...