Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Классная исследовательская работа.
🚨 LLM плохо справляются с опровержениями. Эта работа показывает, почему именно так.
Большинство инструментов ИИ рассматривают опровержения как задачу написания. Генерировать вежливый текст. Звучать уверенно. Перейти к следующему.
Вот почему они терпят неудачу на конференциях высшего уровня.
Это исследование переворачивает всю проблему опровержений с ног на голову.
Вместо "сгенерировать ответ" оно рассматривает опровержения как задачу принятия решений + организации доказательств.
Система, называемая RebuttalAgent, представляет собой многоагентный конвейер, который отказывается что-либо писать, пока логика не будет безупречной.
Сначала она атомизирует отзывы рецензентов. Каждый неопределенный абзац разбивается на точные, конкретные проблемы. Никакие моменты не упущены. Никакое объединение несвязанных критических замечаний. Охват обеспечивается прежде всего.
Далее идет настоящая инновация: рассуждение на основе доказательств.
Для каждой проблемы система строит гибридный контекст. Большая часть статьи остается сжатой, чтобы сэкономить токены, но точные разделы, относящиеся к комментарию рецензента, расширяются в полном объеме. Если внутренних доказательств недостаточно, агент поиска по запросу находит внешние статьи и преобразует их в готовые к цитированию краткие обзоры. Ничего не цитируется, если это невозможно отследить.
Затем приходит шаг, который большинство инструментов LLM полностью пропускает: проверка стратегии.
Перед написанием RebuttalAgent генерирует явный план ответа. Он разделяет:
Что можно уточнить с использованием существующих результатов
Что действительно требует новых экспериментов
Что следует признать, не переусердствуя
Агент проверки проверяет этот план на логическую последовательность и безопасность обязательств. Если ответ подразумевает результаты, которых не существует, он блокируется. Галлюцинации умирают здесь....
Топ
Рейтинг
Избранное
