Эта статья тихо раскрывает, почему большинство "AI-агентов для инженерии" терпят неудачу в тот момент, когда покидают игрушечные демонстрации. Все предполагают, что сложная часть — это язык. Или рассуждение. Или более крупные модели. Эта работа показывает, что настоящая узкая горлышко — это структура. Статья представляет SimuAgent, помощника на основе LLM для Simulink, графической среды моделирования, используемой миллионами инженеров в отраслях с критической безопасностью. Автомобили. Самолеты. Электрические сети. Места, где галлюцинации не получают второго шанса. Основная проблема неприятна. Simulink — это не текст. Это иерархические графы с жесткими правилами топологии, специфическими для области ограничениями и тысячами действительных, но хрупких комбинаций блоков. Сброс XML в LLM не работает. Скриншоты не работают. Длинные подсказки рушатся под ограничениями контекста. Поэтому авторы меняют представление. Вместо XML или изображений SimuAgent преобразует модели Simulink в компактный словарь Python. Выживают только основные элементы: блоки, параметры, соединения. Никакого шумового оформления. Никакой визуальной загроможденности. Количество токенов падает с ~43k до ~2.7k в реальных примерах, и даже ниже после упрощения. Это не косметика. Это принципиально меняет то, о чем модель может рассуждать. Кроме того, агент использует компактный цикл планирования и выполнения. Не разросшийся цирк из множества агентов. Планирование по мере необходимости. Выполнение, когда это безопасно. Перепланирование только после сбоев валидации. Локальный тестовый стенд Python ловит ошибки подключения, недопустимые параметры и несоответствия типов до того, как MATLAB вообще запустится. Но самое интересное в этом вкладе не архитектурное. Это то, как они обучают модель. Использование инструментов на длительном горизонте имеет жесткую проблему с вознаграждением. Вы знаете, удалось ли модели добиться успеха, только в самом конце. Одно скалярное вознаграждение. Никакого руководства в процессе. GRPO немного помогает, но все еще разреженное. Их решение — Reflection-GRPO. Когда первая партия развертываний терпит неудачу, модель генерирует короткие отражающие следы, объясняющие, что пошло не так — неправильно использованные инструменты, неверные предположения, пропущенные шаги. Эти отражения подаются во вторую подгруппу, направляя исследование без утечки ответов. В начале отражение происходит часто. По мере улучшения модели оно естественно исчезает. Обучение ускоряется. Нестабильность снижается. Они сочетают это с хитрым самонаправленным трюком: Abstract–Reconstruct. Агент обобщает модель Simulink, а затем пытается восстановить ее, используя только это обобщение. Это заставляет его соединять высокоуровневый замысел и низкоуровневую реализацию, точно так же, как это делают настоящие инженеры. Бенчмарк реальный, а не синтетический. SimuBench включает 5,300 задач в области управления, электричества, механики, тепла, жидкости и электромагнитных систем. Создание. Модификация. QA. Малые модели и большие. ...