Dit paper onthult stilletjes waarom de meeste "AI-agenten voor engineering" falen op het moment dat ze de speelgoeddemo's verlaten. Iedereen gaat ervan uit dat het moeilijke deel taal is. Of redeneren. Of grotere modellen. Dit werk toont aan dat de echte bottleneck structuur is. Het paper introduceert SimuAgent, een op LLM gebaseerde assistent voor Simulink, de grafische modelleeromgeving die door miljoenen ingenieurs in veiligheid-kritische industrieën wordt gebruikt. Auto's. Vliegtuigen. Energienetwerken. Plaatsen waar hallucinaties geen tweede kans krijgen. Het kernprobleem is lelijk. Simulink is geen tekst. Het zijn hiërarchische grafieken met strikte topologieregels, domeinspecifieke beperkingen en duizenden geldige maar fragiele blokcombinaties. Het dumpen van XML in een LLM werkt niet. Screenshots werken niet. Lange prompts vallen onder contextlimieten in elkaar. Dus veranderen de auteurs de representatie. In plaats van XML of afbeeldingen, converteert SimuAgent Simulink-modellen naar een compacte Python-woordenboek. Alleen de essenties overleven: blokken, parameters, verbindingen. Geen lay-outruis. Geen visuele rommel. Het aantal tokens daalt van ~43k naar ~2.7k in echte voorbeelden, en zelfs nog lager na vereenvoudiging. Dit is niet cosmetisch. Het verandert fundamenteel waar het model over kan redeneren. Bovenop dat gebruikt de agent een slanke plan–uitvoerloop. Geen uitgestrekte multi-agent circus. Plannen wanneer nodig. Uitvoeren wanneer veilig. Herplannen alleen na validatiefouten. Een lokale Python-testomgeving vangt bedradingfouten, ongeldige parameters en type-inconsistenties op voordat MATLAB ooit draait. Maar de meest interessante bijdrage is niet architectonisch. Het is hoe ze het model trainen. Langdurig gereedschapgebruik heeft een brute beloningsprobleem. Je weet pas of het model succesvol was aan het einde. Eén scalare beloning. Geen begeleiding tijdens de vlucht. GRPO helpt een beetje, maar het is nog steeds schaars. Hun oplossing is Reflection-GRPO. Wanneer de eerste batch van rollouts faalt, genereert het model korte reflectietraces die uitleggen wat er misging — verkeerd gebruikte tools, verkeerde aannames, ontbrekende stappen. Die reflecties worden gevoed in een tweede subgroep, die de verkenning begeleidt zonder antwoorden te lekken. In het begin is reflectie frequent. Naarmate het model verbetert, vervaagt het natuurlijk. Leren versnelt. Onstabiliteit daalt. Ze combineren dit met een slimme zelf-gecontroleerde truc: Abstract–Reconstruct. De agent vat een Simulink-model samen en probeert het vervolgens opnieuw op te bouwen met alleen die samenvatting. Dit dwingt het om de brug te slaan tussen hoge-level intentie en lage-level implementatie, precies wat echte ingenieurs doen. De benchmark is echt, niet synthetisch. SimuBench omvat 5.300 taken op het gebied van controle, elektrisch, mechanisch, thermisch, vloeistof en elektromagnetische systemen. Creatie. Wijziging. QA. Kleine modellen en grote. ...