Vaya… Stanford acaba de demostrar por qué los LLMs suenan inteligentes pero aún así fallan en el momento en que la realidad se impone. Este artículo aborda un modo de fallo brutal que todos los que construyen agentes han visto: darle a un modelo una tarea mal especificada y este felizmente alucina las piezas que faltan, produciendo un plan que parece fluido y colapsa en la ejecución. La idea central es simple pero devastadora para los enfoques solo de indicaciones: el razonamiento se rompe cuando las precondiciones son desconocidas. Y la mayoría de las tareas del mundo real están llenas de incógnitas. La solución de Stanford se llama Planificación Categórica Bidireccional de Auto-Consulta (SQ-BCP), y obliga a los modelos a dejar de pretender que saben cosas que no saben. En lugar de asumir hechos faltantes, cada acción rastrea explícitamente sus precondiciones como: • Satisfechas • Violadas • Desconocidas Desconocido es la clave. Cuando el modelo se encuentra con un desconocido, no se le permite continuar. Debe: 1. Hacer una pregunta específica para resolver el hecho faltante o 2. Proponer una acción de puente que establezca la condición primero (medir, verificar, preparar, etc.) Solo después de que todas las precondiciones se resuelvan puede continuar el plan. Pero aquí está el verdadero avance: los planes no se aceptan porque se vean cerca del objetivo. Se aceptan solo si pasan un paso de verificación formal utilizando verificaciones de retroceso teórico de categorías. Las puntuaciones de similitud se utilizan solo para clasificar, nunca para la corrección. ...