Små modeller kan være riktige av helt feil grunner. Nøyaktighetsmålinger forteller deg at en modell svarte riktig. De forteller deg ikke om begrunnelsen var gyldig. For autonome agenter er dette skillet avgjørende. Denne nye forskningen avslører en skjult pålitelighetskrise: 50–69 % av riktige svar fra 7-9B-parametermodeller inneholder grunnleggende feilaktig resonnement. Forskerne kaller dette «Riktig-for-gale-grunner»-fenomenet. Vurder en økonomisk beregning. Modellen svarer riktig på «12» for «Hva er 15 % av 80?» Men begrunnelsen viser at den er multiplisert med 0,2 i stedet for 0,15. Utgangen er riktig. Logikken er ødelagt. Ved utrulling hoper slike skjulte feil seg katastrofalt opp. Studien analyserte 10 734 resonnementsspor på tvers av Llama-3-8B, Mistral-7B og Qwen-2.5-7B på matte-, multi-hop-QA og fornuft-oppgaver. De introduserer Reasoning Integrity Score (RIS), en prosessbasert måling som evaluerer hvert steg i stedet for bare endelige resultater. RAG forbedrer konsekvent resonnementsintegriteten med middels til store effektstørrelser (Cohens d = 0,23-0,93). Den fungerer ved å tilby ekstern stillas som forankrer beregninger i innhentede bevis, og reduserer beregningsfeil med 7,6 %. Men her er det overraskende funnet: selvkritikk og verifiseringsprompter skader aktivt ytelsen (d = -0,14 til -0,33). Forskerne kaller dette «pseudo-refleksjon». Små modeller mangler ekte metakognitiv kapasitet. Når de blir bedt om å kritisere resonnementet sitt, reflekterer de egentlig ikke. De genererer tekst som ser ut som en refleksjon, samtidig som de finner på plausibelte, men feilaktige begrunnelser. For å muliggjøre utrulling destillerte de verifiseringsmuligheter til en lett nevral klassifiserer, som oppnådde 0,86 F1 med 100x hastighet over LLM-dommere. Dette gjør sanntidsvurdering av tillit praktisk. Lærdommen her er at nøyaktighet alene er farlig utilstrekkelig for å bruke små modellagenter. Prosessbasert verifisering må bli et standard sikkerhetslag. Artikkel: Lær å bygge effektive AI-agenter i vår akademi: