Черт возьми… Стэнфорд только что показал, почему LLM звучат умно, но все равно терпят неудачу, когда реальность начинает давить. Эта статья рассматривает жесткий режим неудачи, с которым сталкивался каждый, кто строит агентов: дайте модели недостаточно определенную задачу, и она с радостью воображает недостающие части, создавая план, который выглядит плавно и рушится при выполнении. Основная идея проста, но разрушительна для подходов, основанных только на подсказках: рассуждение ломается, когда предпосылки неизвестны. А большинство реальных задач полны неизвестных. Решение Стэнфорда называется Само-Запрашивающее Двунаправленное Категориальное Планирование (SQ-BCP), и оно заставляет модели перестать притворяться, что они знают то, чего не знают. Вместо того чтобы предполагать недостающие факты, каждое действие явно отслеживает свои предпосылки как: • Удовлетворено • Нарушено • Неизвестно Неизвестное — это ключ. Когда модель сталкивается с неизвестным, ей не разрешается продолжать. Она должна либо: 1. Задать целевой вопрос, чтобы разрешить недостающий факт или 2. Предложить промежуточное действие, которое сначала устанавливает условие (измерить, проверить, подготовить и т.д.) Только после того, как все предпосылки разрешены, план может продолжаться. Но вот настоящий прорыв: планы не принимаются, потому что они выглядят близкими к цели. Они принимаются только если проходят формальный этап верификации с использованием проверок категориальной теории. Оценки схожести используются только для ранжирования, никогда для корректности. ...