¡Por qué los agentes de IA fallan en el tiempo y el contexto y cómo los datos de entrenamiento deficientes lo empeoran! Un nuevo artículo crítico ofrece una perspectiva desalentadora: la mayoría de los agentes de IA se vuelven peligrosos no porque malinterpreten las instrucciones del usuario, sino porque malinterpretan fundamentalmente el tiempo y el contexto. El problema central se ilustra claramente: Una acción como "encender el microondas" solo es segura si no hay metal dentro. Las reglas estáticas y las advertencias vagas basadas en indicaciones no pueden detectar esto. Muchos peligros surgen no de una sola acción, sino de una secuencia encender la estufa está bien; encenderla y luego olvidar apagarla no lo está. La solución propuesta, RoboSafe, introduce barandillas de seguridad en tiempo de ejecución que realizan razonamiento bidireccional: • El razonamiento hacia adelante inspecciona la escena visual actual y los estados de los objetos antes de permitir una acción. • El razonamiento hacia atrás revisa acciones recientes para detectar obligaciones no cumplidas (por ejemplo, obligar al agente a apagar un aparato que activó previamente). Las restricciones de seguridad se expresan como predicados de código verificable lógico ejecutable en lugar de indicaciones en lenguaje natural poco fiables. Los experimentos muestran que RoboSafe reduce las acciones peligrosas en un 36.8% mientras preserva casi todo el rendimiento de la tarea, superando a los métodos basados en indicaciones y estáticos, e incluso resistiendo intentos de jailbreak en hardware robótico físico. La implicación más profunda es ineludible: la seguridad del agente no puede lograrse completamente en el momento del entrenamiento. El despliegue en el mundo real exige un monitoreo activo en tiempo de ejecución que realmente entienda las secuencias temporales y el contexto situacional. Pero, ¿por qué los modelos de hoy luchan tan profundamente con el tiempo y el contexto desde el principio? Un creciente cuerpo de evidencia apunta directamente a la calidad de los datos como el principal culpable. Estudios recientes, incluida una evaluación respaldada por el NHS de los LLM en la seguridad de medicamentos, revelan un patrón revelador: los modelos lograron una sensibilidad perfecta en la detección de problemas potenciales, pero propusieron la intervención correcta solo el 46.9% de las veces. Crucialmente, el 86% de los fracasos no se debieron a falta de conocimiento o alucinaciones, sino a errores de razonamiento contextual aplicando rígidamente las pautas sin adaptarse a los objetivos del paciente, malinterpretando flujos de trabajo del mundo real o actuando con demasiada confianza cuando la incertidumbre requería moderación. Esta debilidad se repite en todos los dominios. Los modelos sobresalen en el emparejamiento de patrones aislados, pero fallan cuando el juicio requiere una conciencia matizada y situada del tiempo, la intención y las consecuencias. ...