Denna artikel avslöjar tyst varför de flesta "AI-agenter för ingenjörskonst" misslyckas så fort de lämnar leksaksdemonstrationerna. Alla antar att det svåra är språket. Eller resonemang. Eller större modeller. Detta arbete visar att den verkliga flaskhalsen är strukturen. Artikeln introducerar SimuAgent, en LLM-baserad assistent för Simulink, den grafiska modelleringsmiljön som används av miljontals ingenjörer inom säkerhetskritiska industrier. Bilar. Flygplan. Elnät. Platser där hallucinationer inte får en andra chans. Kärnproblemet är fult. Simulink är inte text. Det är hierarkiska grafer med strikta topologiregler, domänspecifika begränsningar och tusentals giltiga men ömtåliga blockkombinationer. Att dumpa XML i en LLM fungerar inte. Skärmdumpar fungerar inte. Långa prompts kollapsar under kontextbegränsningar. Så författarna ändrar representationen. Istället för XML eller bilder konverterar SimuAgent Simulink-modeller till en kompakt Python-ordbok. Endast det väsentliga överlever: block, parametrar, anslutningar. Inget layoutbrus. Ingen visuell röra. Tokenantalet sjunker från ~43k till ~2,7k i verkliga exempel, och ännu lägre efter förenkling. Det här är inte kosmetiskt. Det förändrar fundamentalt vad modellen kan resonera om. Utöver det använder agenten en lean plan–execute-loop. Inte en vidsträckt cirkus med flera agenter. Planera när det behövs. Att avrätta när det är säkert. Omplanering endast efter valideringsmisslyckanden. En lokal Python-testkabel fångar upp ledningsfel, ogiltiga parametrar och typavvikelser innan MATLAB ens körs. Men det mest intressanta bidraget är inte arkitektoniskt. Det är så de tränar modellen. Användning av långhorisontsverktyg har ett brutalt belöningsproblem. Du vet bara om modellen lyckades i slutet. En skalär belöning. Ingen vägledning under flygningen. GRPO hjälper lite, men det är fortfarande sparsamt. Deras lösning är Reflection-GRPO. När den första omgången av utrullningar misslyckas genererar modellen korta reflektionsspår som förklarar vad som gick fel – felanvändade verktyg, felaktiga antaganden, missade steg. Dessa reflektioner matas in i en andra undergrupp som vägleder utforskandet utan att läcka svar. I början är reflektion frekvent. När modellen förbättras tonar den naturligt ut. Lärandet accelererar. Instabiliteten minskar. De kombinerar detta med ett smart självövervakat trick: Abstrakt–Rekonstruera. Agenten sammanfattar en Simulink-modell och försöker sedan bygga om den med endast den sammanfattningen. Detta tvingar den att överbrygga hög nivå avsikt och lågnivåimplementering precis som riktiga ingenjörer gör. Benchmarken är verklig, inte syntetisk. SimuBench omfattar 5 300 uppgifter inom styr-, elektriska, mekaniska, termiska, fluid- och elektromagnetiska system. Skapelse. Modifiering. QA. Små modeller och stora. ...