المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
نشارك معاينة مبكرة لجولتنا التدريبية المستمرة في SWE-1.6.
يحسن بشكل كبير عن SWE-1.5 مع تدريبه اللاحق على نفس النموذج المدرب مسبقا - ويعمل بسرعة مماثلة بسرعة 950 توك/ثانية. على SWE-Bench Pro يتفوق على أفضل النماذج مفتوحة المصدر.
لا يزال نموذج المعاينة يظهر بعض السلوكيات غير المرغوبة مثل الإفراط في التفكير والتحقق الذاتي المفرط، والتي نهدف إلى تحسينها. نحن نطرح الوصول المبكر لمجموعة صغيرة من المستخدمين في ويندسرف.

قمنا بتحسين وصفة التعلم الواقعي ووسعنا البنية التحتية لفتح حسابات أكثر بمقدار مرتين مما استخدم في تدريب SWE-1.5. قمنا بتوسيع عدد بيئات التعلم المعزز بشكل كبير ونرى تحسنا مستمرا مع المزيد من التدريب عليه.

كان من الممتع ملاحظة النموذج وهو يتعلم التفكير بعمق أكبر ويكرر المزيد من الأدوار في مشاكل SWE-Bench Pro الصعبة. من ناحية أخرى، نلاحظ الإفراط في التفكير والتحقق الذاتي المفرط في تناول طعام الكلاب.
إيجاد التوازن الصحيح بين التفاعلية والتفكير البعيد هو مجال نشط للبحث.

قمنا بتحسين نظام التدريب لدينا ليعمل بسرعة 6 مرات مقارنة قبل 3 أشهر. على سبيل المثال، خوارزميتنا الآن تتحمل جهدا أعلى مما سمح لنا بالاستفادة الكاملة من محركات الاستدلال.
في منشورنا في المدونة ()، نشارك المزيد من التفاصيل حول تحسينات التدريب وكيفية إدارة تخصيص وحدات معالجة الرسوميات لتعلم التعلم غير المتزامن.

88
الأفضل
المُتصدِّرة
التطبيقات المفضلة
