Kleine Modelle können aus völlig falschen Gründen richtig sein. Genauigkeitsmetriken sagen Ihnen, dass ein Modell die Antwort korrekt gegeben hat. Sie sagen Ihnen nicht, ob die Argumentation stimmig war. Für autonome Agenten ist diese Unterscheidung entscheidend. Diese neue Forschung offenbart eine versteckte Zuverlässigkeitskrise: 50-69% der korrekten Antworten von Modellen mit 7-9B Parametern enthalten grundlegend fehlerhafte Argumentationen. Die Forscher nennen dies das Phänomen "Richtig aus falschen Gründen". Betrachten Sie eine finanzielle Berechnung. Das Modell antwortet korrekt mit "12" auf die Frage "Was sind 15% von 80?" Aber seine Argumentation zeigt, dass es mit 0,2 anstelle von 0,15 multipliziert hat. Die Ausgabe ist richtig. Die Logik ist gebrochen. Bei der Bereitstellung kumulieren solche versteckten Fehler katastrophal. Die Studie analysierte 10.734 Argumentationsspuren über Llama-3-8B, Mistral-7B und Qwen-2.5-7B bei Mathematik-, Multi-Hop-QA- und Alltagsaufgaben. Sie führen den Reasoning Integrity Score (RIS) ein, eine prozessorientierte Metrik, die jeden Schritt bewertet, anstatt nur die Endausgaben. RAG verbessert konsequent die Integrität der Argumentation mit mittleren bis großen Effektgrößen (Cohen's d = 0,23-0,93). Es funktioniert, indem es externe Gerüste bereitstellt, die Berechnungen in abgerufene Beweise verankern und Berechnungsfehler um 7,6% reduzieren. Aber hier ist die überraschende Erkenntnis: Selbstkritik und Verifizierungshinweise schädigen aktiv die Leistung (d = -0,14 bis -0,33). Die Forscher nennen dies "Pseudo-Reflexion". Kleine Modelle haben keine echte metakognitive Kapazität. Wenn sie aufgefordert werden, ihre Argumentation zu kritisieren, reflektieren sie tatsächlich nicht. Sie erzeugen Texte, die wie eine Reflexion aussehen, während sie plausibel klingende, aber falsche Begründungen erfinden. Um die Bereitstellung zu ermöglichen, destillierten sie die Verifikationsfähigkeiten in einen leichten neuronalen Klassifikator und erreichten 0,86 F1 mit 100-facher Beschleunigung gegenüber LLM-Richtern. Dies macht die Echtzeiteinschätzung des Vertrauens praktisch. Die Lektion hier ist, dass Genauigkeit allein gefährlich unzureichend für die Bereitstellung kleiner Modellagenten ist. Prozessorientierte Verifikation muss zu einer standardmäßigen Sicherheitsmaßnahme werden. Papier: Lernen Sie, effektive KI-Agenten in unserer Akademie zu bauen: