Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Denne artikkelen avslører stille hvorfor de fleste «AI-agenter for ingeniørkunst» mislykkes i det øyeblikket de forlater leketøysdemoene.
Alle antar at det vanskelige er språket. Eller resonnement. Eller større modeller. Dette arbeidet viser at den virkelige flaskehalsen er strukturen.
Artikkelen introduserer SimuAgent, en LLM-basert assistent for Simulink, det grafiske modelleringsmiljøet brukt av millioner av ingeniører i sikkerhetskritiske industrier. Biler. Fly. Strømnett. Steder hvor hallusinasjoner ikke får en ny sjanse.
Kjerneproblemet er stygt. Simulink er ikke tekst. Det er hierarkiske grafer med strenge topologiregler, domenespesifikke begrensninger og tusenvis av gyldige, men skjøre blokkkombinasjoner. Å dumpe XML i en LLM fungerer ikke. Skjermbilder fungerer ikke. Lange prompts kollapser under kontekstbegrensninger.
Så forfatterne endrer representasjonen.
I stedet for XML eller bilder, konverterer SimuAgent Simulink-modeller til en kompakt Python-ordbok. Bare det essensielle overlever: blokker, parametere, forbindelser. Ingen layout-støy. Ingen visuell rot. Antall tokens faller fra ~43k til ~2,7k i virkelige eksempler, og enda lavere etter forenkling.
Dette er ikke kosmetisk. Det endrer fundamentalt hva modellen kan resonnere om.
I tillegg bruker agenten en lean plan–execute-løkke. Ikke et omfattende sirkus med flere agenter. Planlegger når det trengs. Utførelse når det er trygt. Omplanlegging kun etter valideringsfeil. En lokal Python-testledning fanger opp ledningsfeil, ugyldige parametere og typeavvik før MATLAB i det hele tatt kjører.
Men det mest interessante bidraget er ikke arkitektonisk. Det er slik de trener modellen.
Langhorisont-verktøybruk har et brutalt belønningsproblem. Du vet bare om modellen lyktes helt til slutt. En skalar belønning. Ingen veiledning midt i flyvningen. GRPO hjelper litt, men det er fortsatt sparsomt.
Deres løsning er Reflection-GRPO.
Når den første runden med utrullinger mislykkes, genererer modellen korte refleksjonsspor som forklarer hva som gikk galt — feilbrukte verktøy, gale antakelser, manglende trinn. Disse refleksjonene mates inn i en annen undergruppe, som styrer utforskningen uten å lekke svar. Tidlig er refleksjon hyppig. Etter hvert som modellen forbedres, forsvinner den naturlig.
Læringen akselererer. Ustabiliteten synker.
De kombinerer dette med et smart selvsupervisert triks: Abstrakt–Rekonstruer. Agenten oppsummerer en Simulink-modell, og prøver deretter å bygge den opp igjen kun ved å bruke denne oppsummeringen. Dette tvinger den til å bygge bro mellom intensjon på høyt nivå og implementering på lavt nivå, akkurat slik ekte ingeniører gjør.
Benchmarken er ekte, ikke syntetisk. SimuBench inkluderer 5 300 oppgaver innen kontroll-, elektriske, mekaniske, termiske, væske- og elektromagnetiske systemer. Skapelse. Modifikasjon. QA. Små modeller og store.
...

Topp
Rangering
Favoritter
