Este artigo expõe silenciosamente por que a maioria dos "agentes de IA para engenharia" falha no momento em que saem de demonstrações simplificadas. Todos assumem que a parte difícil é a linguagem. Ou o raciocínio. Ou modelos maiores. Este trabalho mostra que o verdadeiro gargalo é a estrutura. O artigo apresenta o SimuAgent, um assistente baseado em LLM para Simulink, o ambiente de modelagem gráfica usado por milhões de engenheiros em indústrias críticas de segurança. Carros. Aeronaves. Redes elétricas. Lugares onde alucinações não têm uma segunda chance. O problema central é feio. Simulink não é texto. É gráficos hierárquicos com regras de topologia estritas, restrições específicas de domínio e milhares de combinações de blocos válidas, mas frágeis. Despejar XML em um LLM não funciona. Capturas de tela não funcionam. Prompts longos colapsam sob limites de contexto. Então, os autores mudam a representação. Em vez de XML ou imagens, o SimuAgent converte modelos Simulink em um dicionário Python compacto. Apenas o essencial sobrevive: blocos, parâmetros, conexões. Sem ruído de layout. Sem desordem visual. A contagem de tokens cai de ~43k para ~2.7k em exemplos reais, e ainda mais baixa após simplificação. Isso não é apenas cosmético. Muda fundamentalmente o que o modelo pode raciocinar. Além disso, o agente usa um ciclo de planejamento-execução enxuto. Não um circo de múltiplos agentes espalhados. Planejando quando necessário. Executando quando seguro. Replanejando apenas após falhas de validação. Um testador local em Python captura erros de fiação, parâmetros inválidos e incompatibilidades de tipo antes que o MATLAB seja executado. Mas a contribuição mais interessante não é arquitetônica. É como eles treinam o modelo. O uso de ferramentas de longo prazo tem um problema brutal de recompensa. Você só sabe se o modelo teve sucesso no final. Uma recompensa escalar. Sem orientação no meio do caminho. O GRPO ajuda um pouco, mas ainda é escasso. A solução deles é o Reflection-GRPO. Quando o primeiro lote de rollouts falha, o modelo gera breves rastros de reflexão explicando o que deu errado — ferramentas mal utilizadas, suposições erradas, etapas faltando. Essas reflexões são alimentadas em um segundo subgrupo, guiando a exploração sem vazar respostas. No início, a reflexão é frequente. À medida que o modelo melhora, ela naturalmente diminui. O aprendizado acelera. A instabilidade diminui. Eles combinam isso com um truque auto-supervisionado inteligente: Abstract–Reconstruct. O agente resume um modelo Simulink e, em seguida, tenta reconstruí-lo usando apenas esse resumo. Isso o força a conectar a intenção de alto nível e a implementação de baixo nível, exatamente o que os engenheiros reais fazem. O benchmark é real, não sintético. O SimuBench inclui 5.300 tarefas em sistemas de controle, elétricos, mecânicos, térmicos, fluidos e eletromagnéticos. Criação. Modificação. QA. Modelos pequenos e grandes. ...