Joder... Stanford acaba de mostrar por qué los LLM suenan inteligentes pero aún así fracasan en cuanto la realidad se impone. Este artículo aborda un modo de fallo brutal que todos los agentes de construcción han visto: dar a un modelo una tarea poco especificada y felizmente alucina las piezas que faltan, produciendo un plan que parece fluido y se desmorona al ejecutarse. La idea central es simple pero devastadora para enfoques solo de prompt: el razonamiento se rompe cuando se desconocen las condiciones previas. Y la mayoría de las tareas del mundo real están llenas de incógnitas. La solución de Stanford se llama Planificación Categórica Bidireccional Auto-Consultada (SQ-BCP), y obliga a los modelos a dejar de fingir que saben cosas que no saben. En lugar de asumir hechos faltantes, cada acción rastrea explícitamente sus condiciones previas como: • Satisfecho • Violado • Desconocido La clave es lo desconocido. Cuando el modelo llega a una incógnita, no se le permite continuar. Debe o bien: 1. Hacer una pregunta dirigida para resolver el hecho que falta o 2. Proponer una acción puente que establezca primero la condición (medir, comprobar, preparar, etc.) Solo después de que se resuelvan todas las condiciones previas puede continuar el plan. Pero aquí está el verdadero avance: los planes no se aceptan porque parecen estar cerca del objetivo. Solo se aceptan si superan un paso formal de verificación mediante comprobaciones de retroceso de categoría (Category The). Las puntuaciones de similitud se usan solo para el ranking, nunca para la corrección. ...