Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah ini diam-diam mengungkap mengapa sebagian besar "agen AI untuk teknik" gagal saat mereka meninggalkan demo mainan.
Semua orang menganggap bagian yang sulit adalah bahasa. Atau penalaran. Atau model yang lebih besar. Karya ini menunjukkan kemacetan sebenarnya adalah struktur.
Makalah ini memperkenalkan SimuAgent, asisten berbasis LLM untuk Simulink, lingkungan pemodelan grafis yang digunakan oleh jutaan insinyur di industri penting keselamatan. Mobil. Pesawat. Jaringan listrik. Tempat-tempat di mana halusinasi tidak mendapatkan kesempatan kedua.
Masalah intinya jelek. Simulink bukan teks. Ini adalah grafik hierarkis dengan aturan topologi yang ketat, batasan khusus domain, dan ribuan kombinasi blok yang valid tetapi rapuh. Membuang XML ke LLM tidak berfungsi. Tangkapan layar tidak berfungsi. Perintah panjang runtuh di bawah batas konteks.
Jadi penulis mengubah representasi.
Alih-alih XML atau gambar, SimuAgent mengubah model Simulink menjadi kamus Python yang ringkas. Hanya hal-hal penting yang bertahan: blok, parameter, koneksi. Tidak ada kebisingan tata letak. Tidak ada kekacauan visual. Jumlah token turun dari ~43k menjadi ~2,7k dalam contoh nyata, dan bahkan lebih rendah setelah penyederhanaan.
Ini bukan kosmetik. Ini secara mendasar mengubah apa yang dapat dipikirkan oleh model.
Selain itu, agen menggunakan loop lean plan-execute. Bukan sirkus multi-agen yang luas. Merencanakan saat dibutuhkan. Eksekusi saat aman. Perencanaan ulang hanya setelah kegagalan validasi. Harness pengujian Python lokal menangkap kesalahan pengkabelan, parameter tidak valid, dan ketidakcocokan jenis sebelum MATLAB berjalan.
Tapi kontribusi yang paling menarik bukanlah arsitektur. Begitulah cara mereka melatih model.
Penggunaan alat jangka panjang memiliki masalah hadiah yang brutal. Anda hanya tahu jika modelnya berhasil di bagian paling akhir. Satu hadiah skalar. Tidak ada panduan di tengah penerbangan. GRPO sedikit membantu, tetapi masih jarang.
Perbaikan mereka adalah Reflection-GRPO.
Ketika batch pertama peluncuran gagal, model menghasilkan jejak refleksi singkat yang menjelaskan apa yang salah — alat yang disalahgunakan, asumsi yang salah, langkah yang hilang. Refleksi itu dimasukkan ke dalam subkelompok kedua, memandu eksplorasi tanpa membocorkan jawaban. Sejak awal, refleksi sering terjadi. Saat model meningkat, secara alami memudar.
Pembelajaran dipercepat. Ketidakstabilan turun.
Mereka memasangkan ini dengan trik pengawasan diri yang cerdas: Abstrak-Rekonstruksi. Agen merangkum model Simulink, lalu mencoba membangunnya kembali hanya menggunakan ringkasan itu. Ini memaksanya untuk menjembatani niat tingkat tinggi dan implementasi tingkat rendah persis seperti yang dilakukan insinyur sungguhan.
Tolok ukurnya nyata, bukan sintetis. SimuBench mencakup 5.300 tugas di seluruh sistem kontrol, listrik, mekanik, termal, fluida, dan elektromagnetik. Penciptaan. Modifikasi. QA. Model kecil dan besar.
...

Teratas
Peringkat
Favorit
