Bu makale, çoğu "mühendislik için yapay zeka ajanının" oyuncak demolarından ayrılır çıkmaz neden başarısız olduğunu sessizce ortaya koyuyor. Herkes zor olanın dil olduğunu varsayıyor. Ya da mantık yürütme. Ya da daha büyük modeller. Bu çalışma, gerçek darboğazın yapı olduğunu gösteriyor. Makale, güvenlik açısından kritik sektörlerde milyonlarca mühendis tarafından kullanılan grafik modelleme ortamı Simulink için LLM tabanlı bir asistanı olan SimuAgent'i tanıtıyor. Arabalar. Uçak. Elektrik şebekeleri. Halüsinasyonların ikinci şansı olmayan yerler. Temel sorun çirkin. Simulink metin değil. Sıkı topoloji kuralları, alan spesifik kısıtlamaları ve binlerce geçerli ama kırılgan blok kombinasyonu olan hiyerarşik grafikler. XML'i bir LLM'e dökmek işe yaramıyor. Ekran görüntüleri çalışmıyor. Uzun istekler bağlam sınırları altında çöker. Bu yüzden yazarlar temsili değiştirir. XML veya görüntü yerine, SimuAgent Simulink modellerini kompakt bir Python sözlüğüne dönüştürür. Sadece temel olanlar hayatta kalır: bloklar, parametreler, bağlantılar. Yerleşim gürültüsü yok. Görsel dağınıklık yok. Token sayısı gerçek örneklerde ~43k'dan ~2.7k'ye düşer ve basitleştirmeden sonra daha da düşer. Bu kozmetik değil. Bu, modelin neyi mantıklayabileceğini köklü olarak değiştirir. Bunun üzerine, ajan bir lean plan–execute döngüsü kullanır. Geniş bir çok ajanlı sirk değil. Gerektiğinde planlama. Güvenli olduğunda yürütüyor. Doğrulama başarısızlıklarından sonra yeniden planlama. Yerel bir Python test demeti, MATLAB çalışmadan önce kablolama hatalarını, geçersiz parametreleri ve tür uyumsuzluklarını yakalar. Ama en ilginç katkı mimari değil. Modeli nasıl eğitiyorlar. Uzun ufuk aracı kullanımı acımasız bir ödül sorunu yaratıyor. Modelin en sonunda başarılı olup olmadığını anlarsınız. Bir skaler ödül. Uçuş sırasında rehberlik yoktu. GRPO biraz yardımcı oluyor ama hâlâ seyrek. Çözümleri Reflection-GRPO. İlk dağıtım partisi başarısız olduğunda, model neyin yanlış gittiğini açıklayan kısa yansıtma izleri üretir — yanlış kullanılan araçlar, yanlış varsayımlar, eksik adımlar. Bu yansımalar ikinci bir alt gruba aktarılır ve araştırmayı yönlendirir, cevaplar sızdırmaz. Erken dönemde düşünce sıktır. Model geliştikçe doğal olarak soluyor. Öğrenme hızlanır. Dengesizlik azalıyor. Bunu zekice bir öz-denetimli numarayla eşleştiriyorlar: Soyut–Yeniden Yapı. Ajan, bir Simulink modelini özetler, ardından sadece o özetle yeniden inşa etmeye çalışır. Bu, gerçek mühendislerin yaptığı gibi yüksek düzey niyet ile düşük seviye uygulamayı birleştirmeye zorluyor. Kıyaslama gerçek, sentetik değil. SimuBench, kontrol, elektrik, mekanik, termik, akışkan ve elektromanyetik sistemlerde 5.300 görev içerir. Yaratılış. Modifikasyon. KUhİU. Küçük modeller ve büyük modeller. ...