Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ця стаття тихо розкриває, чому більшість «агентів ШІ для інженерії» зазнають невдачі одразу після виходу з демонстрації іграшок. Всі вважають, що найскладніше — це мова. Або міркування. Або більші моделі. Ця робота показує, що справжнім вузьким місцем є структура. У статті представлено SimuAgent — асистент на базі LLM для Simulink, графічного середовища моделювання, яким користуються мільйони інженерів у галузях, критично важливих для безпеки. Машини. Літаки. Електромережі. Місця, де галюцинації не отримують другого шансу. Основна проблема — потворна. Simulink — це не текстове повідомлення. Це ієрархічні графи з суворими правилами топології, обмеженнями, специфічними для домену, і тисячами дійсних, але крихких комбінацій блоків. Дамп XML у LLM не працює. Скріншоти не працюють. Довгі підказки згортаються через обмеження контексту. Тому автори змінюють представлення. Замість XML або зображень SimuAgent перетворює моделі Simulink у компактний словник Python. Виживають лише найнеобхідніше: блоки, параметри, зв'язки. Жодного шуму від макету. Без візуального безладу. Кількість токенів знижується з ~43k до ~2.7k у реальних прикладах, а після спрощення ще менше. Це не косметика. Це фундаментально змінює те, про що модель може міркувати. Крім того, агент використовує цикл lean plan–execute. А не розлогий багатоагентний цирк. Планування, коли це потрібно. Виконуєте, коли це безпечно. Перепланування лише після невдач у валідації. Локальний тестовий жгут Python виявляє помилки підключення проводки, недійсні параметри та невідповідності типів ще до запуску MATLAB. Але найцікавіший внесок — це не архітектура. Це те, як вони навчають модель. Використання інструментів у довгостроковому режимі має серйозну проблему винагороди. Ви знаєте лише, чи вдалося модель у самому кінці. Одна скалярна нагорода. Під час польоту немає керівництва. GRPO трохи допомагає, але його все одно мало. Їхнє рішення — Reflection-GRPO. Коли перша партія впровадження, модель генерує короткі сліди відбиття, які пояснюють, що пішло не так — неправильне використання інструментів, неправильні припущення, пропущені кроки. Ці роздуми потрапляють у другу підгрупу, яка спрямовує дослідження без витоку відповідей. На початку роздуми трапляються часто. Зі зростанням моделі вона природно зникає. Навчання прискорюється. Нестабільність знижується. Вони поєднують це з хитрим самоконтрольованим трюком: Abstract–Reconstruction. Агент узагальнює модель Simulink, а потім намагається її перебудувати, використовуючи лише цей підсумок. Це змушує його поєднувати високорівневі наміри та низькорівневу реалізацію саме те, що роблять справжні інженери. Еталонний стандарт справжній, а не синтетичний. SimuBench включає 5 300 завдань у сфері керування, електричних, механічних, теплових, рідинних та електромагнітних систем. Творення. Модифікація. QA. Маленькі моделі і великі. ...

Найкращі

Рейтинг

Вибране