منشور جديد: سلسلة nanochat المصغرة v1 الطريقة الصحيحة للتفكير في نماذج اللغة الكبيرة هي أنك لا تحسز لنموذج محدد واحد، بل لنماذج عائلية يتم التحكم بها بواسطة قرص واحد (الحوسبة التي ترغب في إنفاقها) لتحقيق نتائج أفضل بشكل أحاد. هذا يسمح لك بعمل علم دقيق لقوانين التوسع وفي النهاية هذا ما يمنحك الثقة بأنه عندما تدفع مقابل "الركض الكبير"، فإن الاستنتاج سينجح وسيتم إنفاق أموالك بشكل جيد. في الإصدار العام الأول من nanochat، كان تركيزي على خط الأنابيب من البداية إلى الطرف الذي يشغل خط أنابيب LLM بالكامل مع جميع مراحله. الآن بعد أن قمت بعدة جولات في YOLO، أعود لتطوير بعض الأجزاء التي أسرعتها، بدءا بالطبع من التدريب المسبق، الذي يجمع بين الحسابات الثقيلة والحاسم كأساس للذكاء والمعرفة في هذه النماذج. بعد ضبط بعض المعاملات الفائقة محليا، قمت بمسح عدد من النماذج التي تثبت ميزانية FLOPs. (لكل هدف من FLOPs يمكنك تدريب نموذج صغير لفترة طويلة، أو نموذج كبير لفترة قصيرة.) اتضح أن nanochat يلتزم بقوانين القياس الجميلة، حيث يعيد إنتاج مخططات ورق شينشيلا: وهي مجرد نسخة طفولية من هذه الحبكة من تشينشيلا: ومن المهم والمشجع أن الأس على N (المعاملات) وD (الرموز) متساوي عند ~=0.5، لذا مثل شينشيلا نحصل على ثابت واحد (مستقل عن الحوسبة) يربط حجم النموذج بآفاق تدريب الرموز. في شينشيلا، تم قياس هذا الرقم ب 20. في nanochat يبدو أنه 8! بمجرد أن نتمكن من تدريب نماذج الحوسبة المثلى، قمت بمسح سلسلة مصغرة من d10 إلى d20، وهي أحجام nanochat يمكنها تحقيق 2**19 ~= 0.5M أحجام دفعات على عقدة 8XH100 دون تراكم تدرج. نحصل على مخططات تدريب جميلة وغير متكررة لكل حجم نموذج. ثم الجزء الممتع هو ربط هذه السلسلة المصغرة الإصدار الأول بسلسلة GPT-2 وGPT-3 حتى نعرف أننا على الطريق الصحيح. فقدان التحقق يعاني من العديد من المشاكل ولا يمكن المقارنة، لذلك أستخدم بدلا من ذلك درجة CORE (من ورقة DCLM). حسبتها ل GPT-2 وقدرتت ل GPT-3، مما يسمح لنا أخيرا بوضع nanochat بشكل جيد وعلى نفس الحجم: التكلفة الإجمالية لهذه السلسلة المصغرة هي ~100 دولار (~4 ساعات على 8XH100). تمنحنا هذه التجارب ثقة بأن كل شيء يعمل بشكل جيد إلى حد ما، وأنه إذا دفعنا أكثر (أدرنا المقر)، سنحصل على نماذج أفضل بشكل متزايد. ملخص: يمكننا تدريب السلاسل المصغرة المثالية للحوسبة وربطها ب GPT-2/3 عبر درجات CORE الموضوعية، لكن هناك حاجة لمزيد من التحسينات. مثلا، مطابقة GPT-2 تتطلب حاليا ~500$، لكن برأيي يجب أن يكون من الممكن القيام ب <$100 مع المزيد من العمل. المنشور الكامل مع الكثير من التفاصيل هنا: وكل الضبط والكود يتم دفعه إلى الماستر ويمكن للناس إعادة إنتاجها باستخدام scaling_laws .sh وminiseries .sh bash scripts.