المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
إليك ملخص Ritual Research Digest لهذا الأسبوع ، وهي نشرة إخبارية تغطي أحدث ما في عالم LLMs وتقاطع Crypto x الذكاء الاصطناعي.
مع نشر مئات الصحف أسبوعيا ، من المستحيل البقاء على اطلاع دائم بالأحدث الصحف. نقوم بالقراءة حتى لا تضطر إلى ذلك.

RefineBench: تقييم قدرة التحسين لنماذج اللغة عبر قوائم التحقق
تقدم هذه الورقة RefineBench، وهو معيار يقيم قدرات تحسين أنظمة التعلم في سيناريوهات مختلفة. يدمج كل من المهام الحرة والمهام القائمة على الدقة.

يغطي 11 مجالا في مجالات العلوم الإنسانية، والعلوم الاجتماعية، والقانون، ومجالات STEM. يتم تقييم ذلك بطريقتين: التنقية الذاتية والتنقية الموجهة. في بيئة التحسين الذاتي، حتى وحدات LM الحدودية تحقق نتائج منخفضة نسبيا، بينما التنقية الموجهة فعالة جدا.


ثيتا إيفولف: التعلم أثناء الاختبار على المسائل المفتوحة
تقترح الورقة خط أنابيب مفتوح المصدر لمعالجة المشكلات الصعبة. تظهر أن DeepSeek-R1-0528-Qwen3-8B يحسن الحدود المعروفة لبعض المشكلات المفتوحة التي تم النظر فيها في AlphaEvolve.

التعلم المعزز على ThetaEvolve يتفوق على الاستخدامات التي تعتمد فقط على الاستنتاج عبر نموذجين OSS و4 مشاكل صعبة. يظهرون أن النموذج يكتسب قدرات غير بسيطة، كما يتضح من النتائج الأفضل والتقدم الأسرع. وينتقل هذا التحسين حتى إلى مهام أخرى.

كيف تحفز التعلم المعزز بعد التدريب تكوين المهارة؟ دراسة حالة حول العد التنازلي
تستكشف الورقة كيف يمكن للتعلم الواقعي أن يساعد النموذج على تعلم مهارات التأليف بمساعدة العد التنازلي. يفككون الطول والتعميم التركيبي.

يجدان أن:
1) تعمم النماذج لتشمل أحجام الألغاز الأكبر
2) هيكل النمط يحدد الصعوبة
3) النماذج تعمم على الأنماط غير المرئية
في النهاية يظهر أن التعلم التقفي بعد التدريب يساعد في تعميم الطول والتعميم الجزئي التركيبي


DeepSeek-v3.2: دفع حدود نماذج اللغات الكبيرة المفتوحة
تقدم الورقة DS-V3.2، الذي يدمج اهتماما متناثرا من Deepseek لتقليل تعقيد الحوسبة مع الحفاظ على الأداء في السيناريوهات ذات السياق الطويل.

في وضع التعلم الواقعي، يستخدمون التقطير المتخصص (نماذج الخبراء لكل مجال يتم تقطير البيانات لتدريب نقطة التحقق النهائية) وتدريب التعلم المعزز المختلط (دمج المنطق، المحاذاة الوكيلية، والشخص في مرحلة واحدة).
يدربون نموذجا خاصا باستخدام DSmath-V2، محققين الذهب في رأيي.


تابعنا @ritualdigest لمعرفة المزيد حول كل ما يتعلق بالبحث عن العملات المشفرة x الذكاء الاصطناعي ، و
@ritualnet لمعرفة المزيد حول ما تبنيه Ritual.
361
الأفضل
المُتصدِّرة
التطبيقات المفضلة
