Małe modele mogą być poprawne z całkowicie błędnych powodów. Metryki dokładności informują, że model udzielił poprawnej odpowiedzi. Nie mówią jednak, czy rozumowanie było słuszne. Dla autonomicznych agentów ta różnica jest kluczowa. Nowe badania ujawniają ukryty kryzys niezawodności: 50-69% poprawnych odpowiedzi z modeli o 7-9 miliardach parametrów zawiera zasadniczo wadliwe rozumowanie. Badacze nazywają to zjawisko "Poprawne z błędnych powodów". Rozważmy obliczenia finansowe. Model poprawnie odpowiada "12" na pytanie "Ile wynosi 15% z 80?" Ale jego rozumowanie pokazuje, że pomnożył przez 0,2 zamiast 0,15. Wynik jest poprawny. Logika jest zepsuta. W trakcie wdrażania takie ukryte błędy kumulują się katastrofalnie. Badanie przeanalizowało 10 734 ślady rozumowania w modelach Llama-3-8B, Mistral-7B i Qwen-2.5-7B w zadaniach matematycznych, wieloetapowych QA i zdrowego rozsądku. Wprowadzają Wskaźnik Integralności Rozumowania (RIS), metrykę opartą na procesie, która ocenia każdy krok, a nie tylko końcowe wyniki. RAG konsekwentnie poprawia integralność rozumowania z średnimi do dużymi efektami (d Cohena = 0,23-0,93). Działa, dostarczając zewnętrzne wsparcie, które osadza obliczenia w pozyskanych dowodach, redukując błędy obliczeniowe o 7,6%. Ale oto zaskakujące odkrycie: samokrytyka i prompty weryfikacyjne aktywnie szkodzą wydajności (d = -0,14 do -0,33). Badacze nazywają to "pseudo-refleksją". Małe modele nie mają prawdziwej zdolności metakognitywnej. Kiedy są proszone o krytykę swojego rozumowania, tak naprawdę nie reflektują. Generują tekst, który wygląda jak refleksja, jednocześnie wymyślając wiarygodnie brzmiące, ale błędne uzasadnienia. Aby umożliwić wdrożenie, destylowali zdolności weryfikacyjne do lekkiego klasyfikatora neuronowego, osiągając 0,86 F1 przy 100-krotnym przyspieszeniu w porównaniu do sędziów LLM. To sprawia, że ocena zaufania w czasie rzeczywistym staje się praktyczna. Lekcja jest taka, że sama dokładność jest niebezpiecznie niewystarczająca do wdrażania małych agentów modelowych. Weryfikacja oparta na procesie musi stać się standardową warstwą bezpieczeństwa. Artykuł: Naucz się budować skuteczne agenty AI w naszej akademii: