Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Черт возьми… Стэнфорд только что показал, почему LLM звучат умно, но все равно терпят неудачу, когда реальность начинает давить.
Эта статья рассматривает жесткий режим неудачи, с которым сталкивался каждый, кто строит агентов: дайте модели недостаточно определенную задачу, и она с радостью воображает недостающие части, создавая план, который выглядит плавно и рушится при выполнении.
Основная идея проста, но разрушительна для подходов, основанных только на подсказках: рассуждение ломается, когда предпосылки неизвестны. А большинство реальных задач полны неизвестных.
Решение Стэнфорда называется Само-Запрашивающее Двунаправленное Категориальное Планирование (SQ-BCP), и оно заставляет модели перестать притворяться, что они знают то, чего не знают.
Вместо того чтобы предполагать недостающие факты, каждое действие явно отслеживает свои предпосылки как:
• Удовлетворено
• Нарушено
• Неизвестно
Неизвестное — это ключ. Когда модель сталкивается с неизвестным, ей не разрешается продолжать.
Она должна либо:
1. Задать целевой вопрос, чтобы разрешить недостающий факт
или
2. Предложить промежуточное действие, которое сначала устанавливает условие (измерить, проверить, подготовить и т.д.)
Только после того, как все предпосылки разрешены, план может продолжаться.
Но вот настоящий прорыв: планы не принимаются, потому что они выглядят близкими к цели.
Они принимаются только если проходят формальный этап верификации с использованием проверок категориальной теории. Оценки схожести используются только для ранжирования, никогда для корректности.
...

Топ
Рейтинг
Избранное
