DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Este artículo expone silenciosamente por qué la mayoría de los "agentes de IA para ingeniería" fallan en el momento en que dejan las demostraciones de juguete. Todo el mundo asume que la parte difícil es el lenguaje. O el razonamiento. O modelos más grandes. Este trabajo muestra que el verdadero cuello de botella es la estructura. El artículo presenta SimuAgent, un asistente basado en LLM para Simulink, el entorno de modelado gráfico utilizado por millones de ingenieros en industrias críticas para la seguridad. Coches. Aeronaves. Redes eléctricas. Lugares donde las alucinaciones no tienen una segunda oportunidad. El problema central es feo. Simulink no es texto. Son gráficos jerárquicos con reglas de topología estrictas, restricciones específicas del dominio y miles de combinaciones de bloques válidas pero frágiles. Volcar XML en un LLM no funciona. Las capturas de pantalla no funcionan. Los largos mensajes colapsan bajo los límites de contexto. Así que los autores cambian la representación. En lugar de XML o imágenes, SimuAgent convierte los modelos de Simulink en un diccionario compacto de Python. Solo sobreviven lo esencial: bloques, parámetros, conexiones. Sin ruido de diseño. Sin desorden visual. El conteo de tokens cae de ~43k a ~2.7k en ejemplos reales, y aún más bajo después de la simplificación. Esto no es cosmético. Cambia fundamentalmente lo que el modelo puede razonar. Además, el agente utiliza un bucle de plan–ejecución ágil. No un circo de múltiples agentes desmesurado. Planificación cuando es necesario. Ejecución cuando es seguro. Replanificación solo después de fallos de validación. Un arnés de prueba local en Python detecta errores de cableado, parámetros inválidos y desajustes de tipo antes de que MATLAB se ejecute. Pero la contribución más interesante no es arquitectónica. Es cómo entrenan el modelo. El uso de herramientas a largo plazo tiene un problema de recompensa brutal. Solo sabes si el modelo tuvo éxito al final. Una recompensa escalar. Sin orientación en medio del vuelo. GRPO ayuda un poco, pero sigue siendo escasa. Su solución es Reflection-GRPO. Cuando el primer lote de implementaciones falla, el modelo genera breves trazas de reflexión explicando qué salió mal: herramientas mal utilizadas, suposiciones incorrectas, pasos faltantes. Esas reflexiones se alimentan a un segundo subgrupo, guiando la exploración sin filtrar respuestas. Al principio, la reflexión es frecuente. A medida que el modelo mejora, naturalmente se desvanece. El aprendizaje se acelera. La inestabilidad disminuye. Emparejan esto con un truco auto-supervisado ingenioso: Abstract–Reconstruct. El agente resume un modelo de Simulink y luego intenta reconstruirlo usando solo ese resumen. Esto lo obliga a unir la intención de alto nivel y la implementación de bajo nivel, exactamente lo que hacen los ingenieros reales. El benchmark es real, no sintético. SimuBench incluye 5,300 tareas en sistemas de control, eléctricos, mecánicos, térmicos, fluidos y electromagnéticos. Creación. Modificación. QA. Modelos pequeños y grandes. ...

Parte superior

Clasificación

Favoritos