Geweldig onderzoeksartikel. 🚨 LLM's zijn verschrikkelijk in weerleggingen. Dit artikel laat precies zien waarom. De meeste AI-tools beschouwen weerleggingen als een schrijfopdracht. Genereer beleefde tekst. Klink zelfverzekerd. Ga verder. Dat is precies waarom ze falen op topconferenties. Dit onderzoek draait het hele probleem van weerleggingen om. In plaats van "genereer een reactie" beschouwt het weerleggingen als een besluit + bewijsorganisatie taak. Het systeem, genaamd RebuttalAgent, is een multi-agenten pijplijn die weigert iets te schrijven totdat de logica waterdicht is. Eerst atomiseert het de feedback van beoordelaars. Elke vage paragraaf wordt opgesplitst in precieze, uitvoerbare zorgen. Geen punten gemist. Geen ongerelateerde kritiek samengevoegd. Dekking wordt afgedwongen voordat er iets anders gebeurt. Daarna komt de echte innovatie: bewijs-eerst redeneren. Voor elke zorg bouwt het systeem een hybride context. Het merendeel van het artikel blijft gecomprimeerd om tokens te besparen, maar de exacte secties die relevant zijn voor die beoordelingsopmerking worden in volle trouw uitgebreid. Als intern bewijs niet genoeg is, haalt een on-demand zoekagent externe artikelen op en zet ze om in citatie-klaar samenvattingen. Niets wordt geciteerd tenzij het traceerbaar is. Dan komt de stap die de meeste LLM-tools volledig overslaan: strategieverificatie. Voordat er een concept wordt opgesteld, genereert RebuttalAgent een expliciet reactieplan. Het scheidt: Wat kan worden verduidelijkt met bestaande resultaten Wat echt nieuwe experimenten vereist Wat moet worden erkend zonder te veel te beloven Een controle-agent controleert dit plan op logische consistentie en veiligheid van verplichtingen. Als een reactie resultaten impliceert die niet bestaan, wordt deze geblokkeerd. Hallucinaties sterven hier....