Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kleine modellen kunnen om volledig verkeerde redenen juist zijn.
Nauwkeurigheidsmetingen vertellen je dat een model het juiste antwoord heeft gegeven. Ze vertellen je niet of de redenering solide was. Voor autonome agenten is dit onderscheid cruciaal.
Dit nieuwe onderzoek onthult een verborgen betrouwbaarheidcrisis: 50-69% van de juiste antwoorden van modellen met 7-9B parameters bevatten fundamenteel gebroken redenering. De onderzoekers noemen dit het "Juist-om-Verkeerde-Redenen" fenomeen.
Overweeg een financiële berekening. Het model antwoordt "12" correct op "Wat is 15% van 80?" Maar zijn redenering toont aan dat het met 0,2 heeft vermenigvuldigd in plaats van met 0,15. De output is juist. De logica is gebroken. Bij inzet stapelen dergelijke verborgen fouten zich catastrofaal op.
De studie analyseerde 10.734 redeneringstraces over Llama-3-8B, Mistral-7B en Qwen-2.5-7B op wiskunde, multi-hop QA en gezond verstand taken. Ze introduceren de Reasoning Integrity Score (RIS), een procesgebaseerde maatstaf die elke stap evalueert in plaats van alleen de uiteindelijke outputs.
RAG verbetert consequent de redeneringsintegriteit met gemiddelde tot grote effectgroottes (Cohen's d = 0,23-0,93). Het werkt door externe ondersteuning te bieden die berekeningen verankert in opgehaalde bewijsstukken, waardoor rekenfouten met 7,6% worden verminderd.
Maar hier is de verrassende bevinding: zelfkritiek en verificatie prompts schaden actief de prestaties (d = -0,14 tot -0,33). De onderzoekers noemen dit "pseudo-reflectie." Kleine modellen missen oprechte meta-cognitieve capaciteit. Wanneer ze worden gevraagd hun redenering te bekritiseren, reflecteren ze niet echt. Ze genereren tekst die eruitziet als een reflectie terwijl ze plausibel klinkende maar onjuiste rechtvaardigingen uitvinden.
Om inzet mogelijk te maken, hebben ze verificatiecapaciteiten gedistilleerd in een lichtgewicht neurale classifier, met een F1-score van 0,86 en 100x versnelling ten opzichte van LLM-rechters. Dit maakt real-time vertrouwensbeoordeling praktisch.
De les hier is dat nauwkeurigheid alleen gevaarlijk onvoldoende is voor het inzetten van kleine modelagenten. Procesgebaseerde verificatie moet een standaard veiligheidslaag worden.

Boven
Positie
Favorieten
