Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ця стаття тихо розкриває, чому більшість «агентів ШІ для інженерії» зазнають невдачі одразу після виходу з демонстрації іграшок.
Всі вважають, що найскладніше — це мова. Або міркування. Або більші моделі. Ця робота показує, що справжнім вузьким місцем є структура.
У статті представлено SimuAgent — асистент на базі LLM для Simulink, графічного середовища моделювання, яким користуються мільйони інженерів у галузях, критично важливих для безпеки. Машини. Літаки. Електромережі. Місця, де галюцинації не отримують другого шансу.
Основна проблема — потворна. Simulink — це не текстове повідомлення. Це ієрархічні графи з суворими правилами топології, обмеженнями, специфічними для домену, і тисячами дійсних, але крихких комбінацій блоків. Дамп XML у LLM не працює. Скріншоти не працюють. Довгі підказки згортаються через обмеження контексту.
Тому автори змінюють представлення.
Замість XML або зображень SimuAgent перетворює моделі Simulink у компактний словник Python. Виживають лише найнеобхідніше: блоки, параметри, зв'язки. Жодного шуму від макету. Без візуального безладу. Кількість токенів знижується з ~43k до ~2.7k у реальних прикладах, а після спрощення ще менше.
Це не косметика. Це фундаментально змінює те, про що модель може міркувати.
Крім того, агент використовує цикл lean plan–execute. А не розлогий багатоагентний цирк. Планування, коли це потрібно. Виконуєте, коли це безпечно. Перепланування лише після невдач у валідації. Локальний тестовий жгут Python виявляє помилки підключення проводки, недійсні параметри та невідповідності типів ще до запуску MATLAB.
Але найцікавіший внесок — це не архітектура. Це те, як вони навчають модель.
Використання інструментів у довгостроковому режимі має серйозну проблему винагороди. Ви знаєте лише, чи вдалося модель у самому кінці. Одна скалярна нагорода. Під час польоту немає керівництва. GRPO трохи допомагає, але його все одно мало.
Їхнє рішення — Reflection-GRPO.
Коли перша партія впровадження, модель генерує короткі сліди відбиття, які пояснюють, що пішло не так — неправильне використання інструментів, неправильні припущення, пропущені кроки. Ці роздуми потрапляють у другу підгрупу, яка спрямовує дослідження без витоку відповідей. На початку роздуми трапляються часто. Зі зростанням моделі вона природно зникає.
Навчання прискорюється. Нестабільність знижується.
Вони поєднують це з хитрим самоконтрольованим трюком: Abstract–Reconstruction. Агент узагальнює модель Simulink, а потім намагається її перебудувати, використовуючи лише цей підсумок. Це змушує його поєднувати високорівневі наміри та низькорівневу реалізацію саме те, що роблять справжні інженери.
Еталонний стандарт справжній, а не синтетичний. SimuBench включає 5 300 завдань у сфері керування, електричних, механічних, теплових, рідинних та електромагнітних систем. Творення. Модифікація. QA. Маленькі моделі і великі.
...

Найкращі
Рейтинг
Вибране
