I modelli piccoli possono essere giusti per motivi completamente sbagliati. Le metriche di accuratezza ti dicono che un modello ha dato la risposta corretta. Non ti dicono se il ragionamento era valido. Per gli agenti autonomi, questa distinzione è critica. Questa nuova ricerca rivela una crisi di affidabilità nascosta: il 50-69% delle risposte corrette provenienti da modelli con 7-9 miliardi di parametri contengono ragionamenti fondamentalmente errati. I ricercatori chiamano questo fenomeno "Giusto per Motivi Sbagliati". Considera un calcolo finanziario. Il modello risponde "12" correttamente a "Qual è il 15% di 80?" Ma il suo ragionamento mostra che ha moltiplicato per 0,2 invece di 0,15. L'output è corretto. La logica è rotta. In fase di implementazione, tali fallimenti nascosti si accumulano in modo catastrofico. Lo studio ha analizzato 10.734 tracce di ragionamento attraverso Llama-3-8B, Mistral-7B e Qwen-2.5-7B su compiti di matematica, domande a più passaggi e buon senso. Introducono il Reasoning Integrity Score (RIS), una metrica basata sui processi che valuta ogni passaggio piuttosto che solo i risultati finali. RAG migliora costantemente l'integrità del ragionamento con dimensioni dell'effetto da medie a grandi (d di Cohen = 0,23-0,93). Funziona fornendo un'impalcatura esterna che radica i calcoli in prove recuperate, riducendo gli errori di calcolo del 7,6%. Ma ecco la scoperta sorprendente: i prompt di auto-critica e verifica danneggiano attivamente le prestazioni (d = -0,14 a -0,33). I ricercatori chiamano questo "pseudo-riflessione". I modelli piccoli mancano di una genuina capacità metacognitiva. Quando vengono invitati a criticare il loro ragionamento, in realtà non riflettono. Generano testo che sembra una riflessione mentre inventano giustificazioni plausibili ma errate. Per abilitare l'implementazione, hanno distillato le capacità di verifica in un classificatore neurale leggero, raggiungendo 0,86 F1 con un'accelerazione di 100 volte rispetto ai giudici LLM. Questo rende pratico la valutazione della fiducia in tempo reale. La lezione qui è che l'accuratezza da sola è pericolosamente insufficiente per l'implementazione di agenti di modelli piccoli. La verifica basata sui processi deve diventare uno standard di sicurezza.