Caramba... Stanford acabou de mostrar por que os LLMs parecem inteligentes, mas ainda assim falham no momento em que a realidade reage. Este artigo aborda um modo de falha brutal que todos os agentes de construção já viram: se dá a um modelo uma tarefa subespecificada, ele alucina felizmente as peças que faltam, produzindo um plano que parece fluente e desmorona na execução. O insight central é simples, mas devastador para abordagens apenas prompt: o raciocínio quebra quando pré-condições são desconhecidas. E a maioria das tarefas do mundo real está cheia de incertezas. A solução de Stanford se chama Planejamento Categórico Bidirecional Auto-Consultado (SQ-BCP), e força os modelos a pararem de fingir que sabem coisas que não sabem. Em vez de assumir fatos faltantes, toda ação rastreia explicitamente suas pré-condições como: • Satisfeito • Violado • Desconhecido O segredo é o desconhecido. Quando o modelo atinge uma incógnita, não é permitido avançar. Deve ser: 1. Faça uma pergunta direcionada para resolver o fato ausente ou 2. Propõe uma ação de ponte que estabeleça a condição primeiro (medir, verificar, preparar, etc.) Só depois que todas as pré-condições forem resolvidas o plano pode continuar. Mas aqui está o verdadeiro avanço: planos não são aceitos porque parecem próximos do objetivo. Eles só são aceitos se passarem por uma etapa formal de verificação usando verificações de recuo categorias. Pontuações de similaridade são usadas apenas para ranking, nunca para correção. ...