Bài báo này âm thầm chỉ ra lý do tại sao hầu hết các "đại lý AI cho kỹ thuật" thất bại ngay khi họ rời khỏi các bản demo toy. Mọi người đều cho rằng phần khó khăn là ngôn ngữ. Hoặc lý luận. Hoặc các mô hình lớn hơn. Công trình này cho thấy nút thắt thực sự là cấu trúc. Bài báo giới thiệu SimuAgent, một trợ lý dựa trên LLM cho Simulink, môi trường mô hình hóa đồ họa được hàng triệu kỹ sư trong các ngành công nghiệp an toàn sử dụng. Xe hơi. Máy bay. Lưới điện. Những nơi mà ảo giác không có cơ hội thứ hai. Vấn đề cốt lõi rất xấu xí. Simulink không phải là văn bản. Nó là các đồ thị phân cấp với các quy tắc topo nghiêm ngặt, các ràng buộc theo miền cụ thể và hàng ngàn sự kết hợp khối hợp lệ nhưng dễ bị tổn thương. Đổ XML vào một LLM không hoạt động. Ảnh chụp màn hình không hoạt động. Các lời nhắc dài sụp đổ dưới giới hạn ngữ cảnh. Vì vậy, các tác giả thay đổi cách biểu diễn. Thay vì XML hoặc hình ảnh, SimuAgent chuyển đổi các mô hình Simulink thành một từ điển Python gọn nhẹ. Chỉ những điều thiết yếu tồn tại: khối, tham số, kết nối. Không có tiếng ồn bố trí. Không có sự lộn xộn hình ảnh. Số lượng token giảm từ ~43k xuống ~2.7k trong các ví dụ thực tế, và thậm chí còn thấp hơn sau khi đơn giản hóa. Điều này không chỉ là thẩm mỹ. Nó thay đổi cơ bản những gì mô hình có thể lý luận về. Ngoài ra, đại lý sử dụng một vòng lặp kế hoạch - thực hiện gọn nhẹ. Không phải một rạp xiếc đa tác nhân phức tạp. Lập kế hoạch khi cần thiết. Thực hiện khi an toàn. Lập kế hoạch lại chỉ sau khi có lỗi xác thực. Một bộ thử nghiệm Python cục bộ phát hiện lỗi kết nối, tham số không hợp lệ và sự không tương thích kiểu trước khi MATLAB chạy. Nhưng đóng góp thú vị nhất không phải là kiến trúc. Đó là cách họ đào tạo mô hình. Việc sử dụng công cụ dài hạn có một vấn đề phần thưởng tàn nhẫn. Bạn chỉ biết liệu mô hình có thành công hay không vào cuối cùng. Một phần thưởng vô hướng. Không có hướng dẫn giữa chừng. GRPO giúp một chút, nhưng vẫn còn thưa thớt. Cách khắc phục của họ là Reflection-GRPO. Khi lô đầu tiên của các lần triển khai thất bại, mô hình tạo ra các dấu vết phản ánh ngắn giải thích điều gì đã sai — công cụ sử dụng sai, giả định sai, các bước bị thiếu. Những phản ánh đó được đưa vào một nhóm phụ thứ hai, hướng dẫn khám phá mà không tiết lộ câu trả lời. Ngay từ đầu, phản ánh là thường xuyên. Khi mô hình cải thiện, nó tự nhiên giảm dần. Việc học tăng tốc. Sự không ổn định giảm. Họ kết hợp điều này với một mẹo tự giám sát thông minh: Tóm tắt - Tái tạo. Đại lý tóm tắt một mô hình Simulink, sau đó cố gắng xây dựng lại nó chỉ bằng cách sử dụng tóm tắt đó. Điều này buộc nó phải kết nối ý định cấp cao và thực hiện cấp thấp, chính xác những gì các kỹ sư thực sự làm. Bảng chuẩn là thực, không phải tổng hợp. SimuBench bao gồm 5,300 nhiệm vụ trong các hệ thống điều khiển, điện, cơ khí, nhiệt, chất lỏng và điện từ. Tạo ra. Sửa đổi. QA. Các mô hình nhỏ và lớn. ...