Este artigo expõe discretamente por que a maioria dos "agentes de IA para engenharia" falha no momento em que sai das demonstrações de brinquedos. Todo mundo assume que a parte difícil é a linguagem. Ou raciocínio. Ou modelos maiores. Este trabalho mostra que o verdadeiro gargalo é a estrutura. O artigo apresenta o SimuAgent, um assistente baseado em LLM para o Simulink, o ambiente de modelagem gráfica usado por milhões de engenheiros em indústrias críticas para a segurança. Carros. Aeronaves. Redes elétricas. Lugares onde alucinações não têm uma segunda chance. O problema central é feio. Simulink não é texto. São grafos hierárquicos com regras de topologia rígida, restrições específicas de domínio e milhares de combinações de blocos válidas, porém frágeis. Despejar XML em um LLM não funciona. Capturas de tela não funcionam. Prompts longos colapsam sob limites de contexto. Então os autores mudam a representação. Em vez de XML ou imagens, o SimuAgent converte modelos Simulink em um dicionário compacto em Python. Apenas o essencial sobrevive: blocos, parâmetros, conexões. Sem ruído de layout. Sem confusão visual. A contagem de tokens cai de ~43k para ~2,7k em exemplos reais, e ainda menor após simplificação. Isso não é algo estético. Isso muda fundamentalmente sobre o que o modelo pode raciocinar. Além disso, o agente utiliza um loop lean plane–executar. Não um circo de vários agentes. Planejar quando necessário. Executando quando seguro. Replanejando somente após falhas na validação. Um chicote de teste local em Python detecta erros de fiação, parâmetros inválidos e incompatibilidades de tipo antes mesmo que o MATLAB seja executado. Mas a contribuição mais interessante não é arquitetônica. É assim que eles treinam o modelo. O uso de ferramentas de longo prazo tem um problema brutal de recompensas. Você só sabe se o modelo teve sucesso no final. Uma recompensa escalar. Sem orientação no meio do voo. GRPO ajuda um pouco, mas ainda é esparso. A solução deles é Reflexão-GRPO. Quando o primeiro lote de lançamentos falha, o modelo gera trilhas curtas de reflexão explicando o que deu errado — ferramentas mal usadas, suposições erradas, etapas ausentes. Essas reflexões são direcionadas a um segundo subgrupo, guiando a exploração sem vazar respostas. No início, a reflexão é frequente. À medida que o modelo melhora, ele naturalmente desaparece. O aprendizado acelera. A instabilidade diminui. Eles combinam isso com um truque inteligente e auto-supervisionado: Abstrato–Reconstrução. O agente resume um modelo Simulink e tenta reconstruí-lo usando apenas esse resumo. Isso o obriga a fazer a ponte entre intenção de alto nível e implementação de baixo nível exatamente como engenheiros reais fazem. O benchmark é real, não sintético. O SimuBench inclui 5.300 tarefas abrangendo sistemas de controle, elétrico, mecânico, térmico, fluido e eletromagnético. Criação. Modificação. QA. Modelos pequenos e grandes. ...