Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Эта статья тихо раскрывает, почему большинство "AI-агентов для инженерии" терпят неудачу в тот момент, когда покидают игрушечные демонстрации.
Все предполагают, что сложная часть — это язык. Или рассуждение. Или более крупные модели. Эта работа показывает, что настоящая узкая горлышко — это структура.
Статья представляет SimuAgent, помощника на основе LLM для Simulink, графической среды моделирования, используемой миллионами инженеров в отраслях с критической безопасностью. Автомобили. Самолеты. Электрические сети. Места, где галлюцинации не получают второго шанса.
Основная проблема неприятна. Simulink — это не текст. Это иерархические графы с жесткими правилами топологии, специфическими для области ограничениями и тысячами действительных, но хрупких комбинаций блоков. Сброс XML в LLM не работает. Скриншоты не работают. Длинные подсказки рушатся под ограничениями контекста.
Поэтому авторы меняют представление.
Вместо XML или изображений SimuAgent преобразует модели Simulink в компактный словарь Python. Выживают только основные элементы: блоки, параметры, соединения. Никакого шумового оформления. Никакой визуальной загроможденности. Количество токенов падает с ~43k до ~2.7k в реальных примерах, и даже ниже после упрощения.
Это не косметика. Это принципиально меняет то, о чем модель может рассуждать.
Кроме того, агент использует компактный цикл планирования и выполнения. Не разросшийся цирк из множества агентов. Планирование по мере необходимости. Выполнение, когда это безопасно. Перепланирование только после сбоев валидации. Локальный тестовый стенд Python ловит ошибки подключения, недопустимые параметры и несоответствия типов до того, как MATLAB вообще запустится.
Но самое интересное в этом вкладе не архитектурное. Это то, как они обучают модель.
Использование инструментов на длительном горизонте имеет жесткую проблему с вознаграждением. Вы знаете, удалось ли модели добиться успеха, только в самом конце. Одно скалярное вознаграждение. Никакого руководства в процессе. GRPO немного помогает, но все еще разреженное.
Их решение — Reflection-GRPO.
Когда первая партия развертываний терпит неудачу, модель генерирует короткие отражающие следы, объясняющие, что пошло не так — неправильно использованные инструменты, неверные предположения, пропущенные шаги. Эти отражения подаются во вторую подгруппу, направляя исследование без утечки ответов. В начале отражение происходит часто. По мере улучшения модели оно естественно исчезает.
Обучение ускоряется. Нестабильность снижается.
Они сочетают это с хитрым самонаправленным трюком: Abstract–Reconstruct. Агент обобщает модель Simulink, а затем пытается восстановить ее, используя только это обобщение. Это заставляет его соединять высокоуровневый замысел и низкоуровневую реализацию, точно так же, как это делают настоящие инженеры.
Бенчмарк реальный, а не синтетический. SimuBench включает 5,300 задач в области управления, электричества, механики, тепла, жидкости и электромагнитных систем. Создание. Модификация. QA. Малые модели и большие.
...

Топ
Рейтинг
Избранное
