المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
تكشف هذه الورقة بهدوء سبب فشل معظم "وكلاء الذكاء الاصطناعي للهندسة" بمجرد مغادرتهم عروض الألعاب.
الجميع يفترض أن الجزء الصعب هو اللغة. أو المنطق. أو نماذج أكبر. يظهر هذا العمل أن عنق الزجاجة الحقيقي هو الهيكل.
تقدم الورقة SimuAgent، وهو مساعد قائم على نماذج اللغة الكبيرة لجهاز Simulink، وهو بيئة النمذجة الرسومية التي يستخدمها ملايين المهندسين في الصناعات الحيوية للسلامة. سيارات. طائرات. شبكات الكهرباء. أماكن لا تحصل فيها الهلوسات على فرصة ثانية.
المشكلة الأساسية قبيحة. Simulink ليس نصا. إنها رسوم بيانية هرمية مع قواعد صارمة للطوبولوجيا، وقيود خاصة بالمجال، وآلاف التركيبات الصالحة لكنها هشة. إدخال XML في نموذج LLM لا يعمل. لقطات الشاشة لا تعمل. تنهار المحفزات الطويلة تحت حدود السياق.
لذا يغيرون المؤلفون التمثيل.
بدلا من XML أو الصور، يقوم SimuAgent بتحويل نماذج Simulink إلى قاموس بايثون مضغوط. فقط الأساسيات تبقى: الكتل، المعايير، الروابط. لا يوجد ضوضاء في التصميم. لا يوجد فوضى بصرية. ينخفض عدد الرموز من ~43 ألف إلى ~2.7 ألف في الأمثلة الحقيقية، وينخفض أكثر بعد التبسيط.
هذا ليس تجميلا. هذا يغير بشكل جذري ما يمكن للنموذج التفكير فيه.
بالإضافة إلى ذلك، يستخدم الوكيل حلقة خطة رشيقة-تنفيذ. ليس سيركا متعدد العملاء واسعا. التخطيط عند الحاجة. التنفيذ عندما يكون آمنا. إعادة التخطيط فقط بعد فشل التحقق. يكتشف جهاز اختبار بايثون المحلي أخطاء الأسلاك، والمعلمات غير الصالحة، وعدم تطابق النوع قبل أن يعمل MATLAB أصلا.
لكن المساهمة الأكثر إثارة للاهتمام ليست معمارية. هذه هي الطريقة التي يدربون بها العارض.
استخدام الأدوات ذات الأفق الطويل يعاني من مشكلة مكافأة قاسية. أنت تعرف فقط إذا نجح النموذج في النهاية. مكافأة قياسية واحدة. لا يوجد توجيه أثناء الطيران. GRPO يساعد قليلا، لكنه لا يزال قليل.
الحل لديهم هو Reflection-GRPO.
عندما تفشل الدفعة الأولى من عمليات الطرح، يولد النموذج آثار انعكاس قصيرة تشرح ما حدث خطأ — أدوات أسيء الاستخدام، افتراضات خاطئة، خطوات مفقودة. تغذى تلك التأملات في مجموعة فرعية ثانية، توجه الاستكشاف دون تسرب إجابات. في البداية، كان التأمل متكررا. مع تحسن النموذج، يتلاشى بشكل طبيعي.
التعلم يتسارع. عدم الاستقرار ينخفض.
يجمعون هذا مع خدعة ذكية تحت إشراف ذاتي: التجريد–إعادة البناء. يقوم الوكيل بتلخيص نموذج سيمولينك، ثم يحاول إعادة بنائه باستخدام هذا الملخص فقط. هذا يجبرها على الربط بين النية عالية المستوى والتنفيذ المنخفض المستوى تماما ما يفعله المهندسون الحقيقيون.
المعيار الحقيقي، وليس اصطناعيا. يشمل سيمو بنش 5,300 مهمة في أنظمة التحكم والكهرباء والميكانيكية والحرارية والسائعات والكهرومغناطيسية. الخلق. تعديل. سؤال وسؤال. نماذج صغيرة وكبيرة.
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
