Modelele mici pot avea dreptate din motive complet greșite. Metricile de acuratețe îți spun că un model a răspuns corect. Nu îți spun dacă raționamentul a fost corect. Pentru agenții autonomi, această distincție este esențială. Această nouă cercetare dezvăluie o criză ascunsă de fiabilitate: 50-69% dintre răspunsurile corecte din modelele cu parametri 7-9B conțin raționamente fundamental eronate. Cercetătorii numesc acest fenomen fenomenul "Corect pentru motive greșite". Luați în considerare un calcul financiar. Modelul răspunde corect "12" la "Ce înseamnă 15% din 80?" Dar raționamentul arată că a fost înmulțită cu 0,2 în loc de 0,15. Rezultatul este corect. Logica este ruptă. În timpul desfășurării, astfel de eșecuri ascunse se agravează catastrofal. Studiul a analizat 10.734 de urme de raționament la Llama-3-8B, Mistral-7B și Qwen-2.5-7B la sarcini matematice, QA multi-hop și bun simț. Ei introduc Scorul de Integritate a Raționamentului (RIS), o metrică bazată pe procese care evaluează fiecare pas, nu doar rezultatele finale. RAG îmbunătățește constant integritatea raționamentului cu dimensiuni de efect medii spre mari (d Cohen = 0,23-0,93). Funcționează prin furnizarea de schelă externă care fundamentează calculele în dovezi recuperate, reducând erorile de calcul cu 7,6%. Dar iată constatarea surprinzătoare: autoevaluarea și verificarea provocă dăunări active performanței (d = -0,14 până la -0,33). Cercetătorii numesc acest lucru "pseudo-reflecție". Modelele mici nu au o capacitate meta-cognitivă autentică. Când sunt întrebați să-și critice raționamentul, nu reflectă de fapt. Ele generează texte care arată ca o reflecție, în timp ce inventează justificări plauzibile, dar incorecte. Pentru a permite implementarea, au condensat capabilitățile de verificare într-un clasificator neural ușor, atingând 0,86 F1 cu o viteză de 100x față de judecătorii LLM. Acest lucru face evaluarea încrederii în timp real practică. Lecția aici este că acuratețea singură este periculos de insuficientă pentru a desfășura agenți model mici. Verificarea bazată pe procese trebuie să devină un strat standard de siguranță. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: