Bardzo dobra praca badawcza. 🚨 LLM-y są okropne w rebuttalach. Ten artykuł pokazuje dokładnie dlaczego. Większość narzędzi AI traktuje rebuttale jak zadanie pisarskie. Generuj uprzejmy tekst. Brzmi pewnie. Przechodź dalej. To właśnie dlatego nie udaje im się na konferencjach najwyższej rangi. To badanie przewraca cały problem rebuttali do góry nogami. Zamiast „wygenerować odpowiedź”, traktuje rebuttale jako zadanie organizacji decyzji + dowodów. System, zwany RebuttalAgent, to wieloagentowy pipeline, który odmawia pisania czegokolwiek, dopóki logika nie jest niepodważalna. Najpierw atomizuje opinie recenzentów. Każdy niejasny akapit zostaje rozbity na precyzyjne, wykonalne zastrzeżenia. Żadne punkty nie są pomijane. Żadne niepowiązane krytyki nie są łączone. Pokrycie jest egzekwowane zanim cokolwiek innego się wydarzy. Następnie przychodzi prawdziwa innowacja: rozumowanie oparte na dowodach. Dla każdego zastrzeżenia system buduje hybrydowy kontekst. Większość artykułu pozostaje skompresowana, aby zaoszczędzić tokeny, ale dokładne sekcje istotne dla tego komentarza recenzenta są rozwijane w pełnej wierności. Jeśli wewnętrzne dowody nie są wystarczające, agent wyszukiwania na żądanie pobiera zewnętrzne artykuły i przekształca je w gotowe do cytowania streszczenia. Nic nie jest cytowane, chyba że można to prześledzić. Następnie przychodzi krok, który większość narzędzi LLM całkowicie pomija: weryfikacja strategii. Przed przystąpieniem do pisania, RebuttalAgent generuje wyraźny plan odpowiedzi. Oddziela: Co można wyjaśnić przy użyciu istniejących wyników Co naprawdę wymaga nowych eksperymentów Co powinno być uznane bez nadmiernego zobowiązywania Agent kontrolny audytuje ten plan pod kątem spójności logicznej i bezpieczeństwa zobowiązań. Jeśli odpowiedź sugeruje wyniki, które nie istnieją, zostaje zablokowana. Halucynacje umierają tutaj....