بعض الأعمال الرائعة حقا من @carlobaronio @pmmarsella @ybenpan! لا يزال أفق طويل أمامنا للوكلاء متعددي الأدوار :)
Cognition
Cognition‏7 مايو 2025
يقدم المتدربون البحثيون لدينا: كيفن 32 ب = ك (إرنيل د) إيفين إنه أول نموذج مفتوح يتم تدريبه باستخدام RL لكتابة نواة CUDA. قمنا بتنفيذ RL متعدد الأدوار باستخدام GRPO (استنادا إلى QwQ-32B) على مجموعة بيانات KernelBench. يتفوق على أفضل نماذج التفكير (o3 & o4-mini)! 🧵
‏‎5.85‏K