DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Această lucrare expune discret de ce majoritatea "agenților AI pentru inginerie" eșuează în momentul în care părăsesc demo-urile de jucării. Toată lumea presupune că partea dificilă este limbajul. Sau raționament. Sau modele mai mari. Această lucrare arată că adevăratul blocaj este structura. Articolul prezintă SimuAgent, un asistent bazat pe LLM pentru Simulink, mediul de modelare grafică folosit de milioane de ingineri în industrii critice pentru siguranță. Mașini. Avioane. Rețele electrice. Locuri unde halucinațiile nu primesc o a doua șansă. Problema de bază este urâtă. Simulink nu este text. Este vorba de grafuri ierarhice cu reguli stricte de topologie, constrângeri specifice domeniului și mii de combinații de blocuri valide, dar fragile. Dumparea XML într-un LLM nu funcționează. Capturile de ecran nu funcționează. Prompturile lungi se prăbușesc sub limitele contextului. Așadar, autorii schimbă reprezentarea. În loc de XML sau imagini, SimuAgent convertește modelele Simulink într-un dicționar compact Python. Doar elementele esențiale supraviețuiesc: blocuri, parametri, conexiuni. Niciun zgomot de layout. Fără dezordine vizuală. Numărul de jetoane scade de la ~43k la ~2,7k în exemplele reale, și chiar mai jos după simplificare. Nu e ceva cosmetic. Schimbă fundamental ceea ce poate raționa modelul. Pe lângă asta, agentul folosește o buclă lean plan–execuție. Nu un circ întins cu mai mulți agenți. Planificarea când este nevoie. Executarea când este în siguranță. Replanificarea doar după eșecuri de validare. Un ham local de testare Python detectează erori de cablare, parametri invalidi și nepotriviri de tip înainte ca MATLAB să ruleze. Dar cea mai interesantă contribuție nu este arhitecturală. Așa antrenează modelul. Folosirea uneltelor pe termen lung are o problemă brutală de recompensă. Știi doar dacă modelul a reușit la final. O recompensă scalară. Fără ghidare în timpul zborului. GRPO ajută puțin, dar tot este rară. Soluția lor este Reflection-GRPO. Când primul lot de implementări eșuează, modelul generează scurte trasee de reflexie care explică ce a mers prost — unelte folosite greșit, presupuneri greșite, pași lipsă. Aceste reflecții sunt integrate într-un al doilea subgrup, ghidând explorarea fără a scurge răspunsuri. La început, reflecția este frecventă. Pe măsură ce modelul se îmbunătățește, acesta se estompează în mod natural. Învățarea se accelerează. Instabilitatea scade. Ei combină acest lucru cu un truc ingenios auto-supravegheat: Abstract–Reconstruire. Agentul rezumă un model Simulink, apoi încearcă să-l reconstruiască folosind doar acel rezumat. Acest lucru îl obligă să facă legătura între intenția la nivel înalt și implementarea la nivel scăzut, exact ceea ce fac inginerii reali. Reperul este real, nu sintetic. SimuBench include 5.300 de sarcini în sistemele de control, electrice, mecanice, termice, fluide și electromagnetice. Creație. Modificare. QA. Modele mici și mari. ...

Limită superioară

Clasament

Favorite