Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por qué los agentes de IA fallan en el momento y el contexto, y cómo los datos de entrenamiento deficientes lo empeoraron.
Un nuevo artículo crítico ofrece una visión sobria: la mayoría de los agentes de IA se vuelven peligrosos no porque malinterpreten las instrucciones del usuario, sino porque fundamentalmente no entienden el tiempo y el contexto.
El problema central se ilustra claramente:
Una acción como "encender el microondas" solo es segura si no hay metal dentro. Las reglas estáticas y las advertencias vagas basadas en prompts no pueden detectar esto. Muchos peligros no surgen de una sola acción, sino de una secuencia que encende una estufa es adecuado; Encender y luego olvidarse de apagarlo no lo es.
La solución propuesta, RoboSafe, introduce barreras de ejecución que realizan razonamientos bidireccionales:
• El razonamiento directo inspecciona la escena visual actual y los estados del objeto antes de permitir una acción.
• El razonamiento hacia atrás revisa acciones recientes para detectar obligaciones pendientes (por ejemplo, obligar al agente a apagar un aparato que había activado previamente).
Las restricciones de seguridad se expresan como predicados de código verificables con lógica ejecutable en lugar de prompts en lenguaje natural poco fiables.
Los experimentos muestran que RoboSafe reduce las acciones peligrosas en un 36,8% mientras preserva casi todo el rendimiento de las tareas, superando los métodos basados en prompts y estáticos, e incluso resistiendo intentos de jailbreak en hardware robótico físico.
La implicación más profunda es inevitable: la seguridad del agente no puede alcanzarse completamente en el momento de la formación. El despliegue en el mundo real exige una monitorización activa en tiempo de ejecución que entienda realmente las secuencias temporales y el contexto situacional.
Pero, ¿por qué los modelos actuales luchan tan profundamente con el tiempo y el contexto desde el principio?
Un creciente cuerpo de evidencia apunta directamente a la calidad de los datos como la principal culpable.
Estudios recientes, incluyendo una evaluación respaldada por el NHS de los LLM en la seguridad de los medicamentos, revelan un patrón revelador: los modelos lograron una sensibilidad perfecta para detectar posibles problemas, pero solo propusieron la intervención correcta en el 46,9% de las ocasiones.
De forma crucial, el 86% de los fracasos no se debían a la falta de conocimiento o alucinaciones, sino a errores de razonamiento contextual que aplicaban rígidamente las directrices sin adaptarse a los objetivos del paciente, malinterpretaban los flujos de trabajo del mundo real o actuaban con exceso de confianza cuando la incertidumbre requería contención.
Esta debilidad se repite en todos los dominios. Los modelos destacan en la correspondencia de patrones aislados, pero flaquean cuando el juicio requiere una conciencia matizada y situada del tiempo, la intención y las consecuencias.
...

Populares
Ranking
Favoritas
