Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dieses Papier zeigt leise auf, warum die meisten "KI-Agenten für Ingenieurwesen" scheitern, sobald sie die Spielzeug-Demos verlassen.
Jeder geht davon aus, dass der schwierige Teil die Sprache ist. Oder das Denken. Oder größere Modelle. Diese Arbeit zeigt, dass der wahre Engpass die Struktur ist.
Das Papier stellt SimuAgent vor, einen LLM-basierten Assistenten für Simulink, die grafische Modellierungsumgebung, die von Millionen von Ingenieuren in sicherheitskritischen Branchen verwendet wird. Autos. Flugzeuge. Stromnetze. Orte, an denen Halluzinationen keine zweite Chance bekommen.
Das Kernproblem ist hässlich. Simulink ist kein Text. Es sind hierarchische Graphen mit strengen Topologieregeln, domänenspezifischen Einschränkungen und Tausenden von gültigen, aber fragilen Blockkombinationen. XML in ein LLM zu kippen, funktioniert nicht. Screenshots funktionieren nicht. Lange Eingabeaufforderungen kollabieren unter den Kontextgrenzen.
Also ändern die Autoren die Darstellung.
Anstatt XML oder Bilder zu verwenden, konvertiert SimuAgent Simulink-Modelle in ein kompaktes Python-Wörterbuch. Nur das Wesentliche bleibt erhalten: Blöcke, Parameter, Verbindungen. Kein Layout-Rauschen. Kein visueller Überfluss. Die Tokenanzahl sinkt von ~43k auf ~2,7k in realen Beispielen und noch niedriger nach der Vereinfachung.
Das ist nicht kosmetisch. Es verändert grundlegend, worüber das Modell nachdenken kann.
Darüber hinaus verwendet der Agent eine schlanke Plan–Ausführungs-Schleife. Kein ausufernder Multi-Agenten-Zirkus. Planung, wenn nötig. Ausführung, wenn es sicher ist. Neuplanung nur nach Validierungsfehlern. Ein lokales Python-Testwerkzeug erkennt Verdrahtungsfehler, ungültige Parameter und Typinkonsistenzen, bevor MATLAB jemals ausgeführt wird.
Aber der interessanteste Beitrag ist nicht architektonisch. Es ist, wie sie das Modell trainieren.
Die Nutzung von Werkzeugen über lange Zeiträume hat ein brutales Belohnungsproblem. Man weiß nur am Ende, ob das Modell erfolgreich war. Eine skalare Belohnung. Keine Anleitung in der Mitte. GRPO hilft ein wenig, aber es ist immer noch spärlich.
Ihre Lösung ist Reflection-GRPO.
Wenn die erste Charge von Rollouts fehlschlägt, generiert das Modell kurze Reflexionsspuren, die erklären, was schiefgelaufen ist – missbrauchte Werkzeuge, falsche Annahmen, fehlende Schritte. Diese Reflexionen werden in eine zweite Untergruppe eingespeist, die die Erkundung leitet, ohne Antworten preiszugeben. Zu Beginn ist die Reflexion häufig. Mit der Verbesserung des Modells verblasst sie natürlich.
Das Lernen beschleunigt sich. Die Instabilität sinkt.
Sie kombinieren dies mit einem cleveren selbstüberwachten Trick: Abstract–Reconstruct. Der Agent fasst ein Simulink-Modell zusammen und versucht dann, es nur mit dieser Zusammenfassung wieder aufzubauen. Dies zwingt ihn, die hochrangige Absicht und die niedrigstufige Implementierung zu überbrücken, genau wie es echte Ingenieure tun.
Der Benchmark ist real, nicht synthetisch. SimuBench umfasst 5.300 Aufgaben in den Bereichen Steuerung, Elektrik, Mechanik, Thermik, Fluid und Elektromagnetik. Erstellung. Modifikation. QA. Kleine Modelle und große.
...

Top
Ranking
Favoriten
