Malé modely mohou být správné z úplně špatných důvodů. Metriky přesnosti vám říkají, že model odpověděl správně. Neřeknou vám, jestli bylo odůvodnění správné. Pro autonomní agenty je toto rozlišení zásadní. Tento nový výzkum odhaluje skrytou krizi spolehlivosti: 50–69 % správných odpovědí z modelů parametrů 7–9B obsahuje zásadně chybné uvažování. Výzkumníci tomu říkají fenomén "Správné pro špatné důvody". Zvažte finanční kalkulaci. Model odpovídá správně na "12" na otázku "Kolik je 15 % z 80?" Ale jeho odůvodnění ukazuje, že se násobil 0,2 místo 0,15. Výstup je správný. Logika je rozbitá. Při nasazení se takové skryté selhání katastrofálně sčítají. Studie analyzovala 10 734 logických stop napříč Llama-3-8B, Mistral-7B a Qwen-2.5-7B v oblasti matematiky, vícenásobného QA a zdravého rozumu. Zavádějí Skóre integrity uvažování (RIS), procesní metriku, která hodnotí každý krok, nikoli pouze konečné výstupy. RAG konzistentně zlepšuje integritu uvažování při středně velkých až velkých efektech (Cohenův d = 0,23-0,93). Funguje tak, že poskytuje vnější oporu, která zakládá výpočty na získaných důkazech, čímž snižuje chyby výpočtů o 7,6 %. Ale zde je překvapivý závěr: sebekritika a ověřovací výzvy aktivně poškozují výkon (d = -0,14 až -0,33). Výzkumníci tomu říkají "pseudo-reflexe". Malé modely postrádají skutečnou metakognitivní kapacitu. Když jsou vyzváni, aby kritizovali své důvody, ve skutečnosti nereflektují. Generují text, který vypadá jako odraz, zatímco vymýšlejí věrohodně znějící, ale nesprávná zdůvodnění. Pro umožnění nasazení zredukovali ověřovací schopnosti do lehkého neuronového klasifikátoru, který dosáhl 0,86 F1 s 100násobným zrychlením oproti LLM soudcům. To činí hodnocení důvěry v reálném čase praktickým. Poučení je, že samotná přesnost je nebezpečně nedostatečná pro nasazení malých modelových agentů. Ověřování založené na procesech se musí stát standardní bezpečnostní vrstvou. Článek: Naučte se vytvářet efektivní AI agenty v naší akademii: