Святі небеса... Стенфорд щойно показав, чому LLM звучать розумно, але все одно зазнають невдачі, щойно реальність дає опір. У цій статті розглядається жорстокий режим невдач, який бачили всі агенти з будівництва: дати моделі недооцінене завдання, і вона із задоволенням уявляє відсутні частини, створюючи план, який виглядає плавно і руйнується при виконанні. Основне розуміння просте, але руйнівне для підходів, орієнтованих лише на підказки: міркування переривається, коли передумови невідомі. І більшість реальних завдань сповнені невідомого. Рішення Стенфорда називається самозапитанням двонаправленим категоричним плануванням (SQ-BCP), і воно змушує моделі перестати вдавати, що знають те, чого не знають. Замість того, щоб припускати відсутні факти, кожна дія явно відстежує свої передумови так: • Задоволений • Порушено • Невідомо Невідоме — це ключ. Коли модель потрапляє в невідому точку, їй не дозволяють рухатися далі. Він має або: 1. Задайте цілеспрямоване питання, щоб розв'язати відсутній факт або 2. Запропонувати перехідну дію, яка спочатку встановлює умову (виміряти, перевірити, підготуватися тощо). Лише після вирішення всіх передумов план може продовжуватися. Але ось справжній прорив: плани не приймають лише тому, що вони близькі до мети. Їх приймають лише за умови, що вони проходять формальний етап верифікації за допомогою категорійних перевірок відвороту. Бали схожості використовуються лише для ранжування, ніколи для правильності. ...