Дослідницька робота Banger. 🚨 LLM жахливі у відповідях. Ця стаття точно показує чому. Більшість інструментів ШІ ставляться до спростувань як до письмового завдання. Створюйте ввічливий текст. Звучи впевнено. Рухайся далі. Саме тому вони зазнають невдачі на конференціях найвищого рівня. Це дослідження перевертає всю проблему спростування з ніг на голову. Замість «генерації відповіді» вона розглядає спростування як завдання з рішення + організації доказів. Система, що називається RebuttalAgent, є багатоагентним конвеєром, який відмовляється записувати щось, доки логіка не стане бездоганною. По-перше, він розбиває відгуки рецензентів. Кожен розмитий абзац розбивається на конкретні, дієві питання. Жодного пропущеного очка. Не об'єднуйте непов'язані критики разом. Покриття забезпечується перед тим, як щось інше станеться. Далі йде справжня інновація: мислення, орієнтоване на докази. Для кожної проблеми система створює гібридний контекст. Більшість статті залишається стисненою для збереження токенів, але точні розділи, що стосуються цього коментаря рецензента, розширені з повною якістю. Якщо внутрішніх доказів недостатньо, агент пошуку на вимогу отримує зовнішні документи і перетворює їх на готові до цитування брифі. Нічого не цитується, якщо це не можна відстежити. Далі йде крок, який більшість інструментів LLM повністю пропускають: перевірка стратегії. Перед написанням RebuttalAgent генерує чіткий план відповіді. Вона розділяє: Що можна уточнити, використовуючи наявні результати Що справді потребує нових експериментів Що слід визнавати, не перебільшуючи Чекер-агент перевіряє цей план на логічну послідовність і безпеку зобов'язань. Якщо відповідь натякає на результати, яких немає, вона блокується. Галюцинації тут вмирають....