المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
متحمس لمشاركة أحدث طراز من أولمو: أولمو هايبرد. هذا نموذج يحتوي على طبقات شبكة دلتا (GDN) المبوبة بنسبة 3:1 مع تركيز كامل. يتبع ذلك العديد من التطورات الأخرى مثل Qwen 3.5 وKimi Linear. إنه توقيت مذهل لإصدار نموذج مفتوح بالكامل حتى يتمكن الناس من دراسة كيف تؤثر هذه التغييرات في البنية على الحزمة الكاملة.
شخصيا، تعلمت الكثير في جعل فترة ما بعد التدريب تعمل. حتى مع أن البيانات متطابقة للتدريب المسبق، فإن التدريب بعد التدريب مختلف جدا! على وجه الخصوص، أدوات OSS لهذه البنى الجديدة محدودة جدا. البنى الجديدة أبطأ بكثير من المحولات القياسية أو النماذج الشائعة مثل DeepSeek MoEs. هذا عمل يمكننا القيام به معا للاستمرار في دفع حدود النماذج الفعالة والمفتوحة.
قاد هذا العمل @lambdaviking @tyleraromero وآخرون. لعبت دورا أصغر في جعل المشروع بعد التدريب ممتعا جدا!
كتبت تدوينة تشرح لماذا هذا مهم ولماذا لم تعمل النماذج الهجينة قبل عدة سنوات عندما كانت مامبا مشهورة جدا. بالإضافة إلى ذلك، هذه الورقة نقطة انطلاق رائعة للتعلم العميق الحديث / نظرية نمذجة اللغات. استمتع وأرسل ملاحظاتك!

@interconnectsai تم توفير الكثير من الحوسبة لهذا المشروع من قبل @LambdaAPI. بدونها، لما كان هذا الهجين من أولمو موجودا، شكرا لدعمكم للمجتمع المفتوح.
53
الأفضل
المُتصدِّرة
التطبيقات المفضلة
