Los modelos pequeños pueden ser correctos por razones totalmente equivocadas. Las métricas de precisión te indican que un modelo acertó en la respuesta. No te dicen si el razonamiento era válido. Para los agentes autónomos, esta distinción es fundamental. Esta nueva investigación revela una crisis oculta de fiabilidad: entre el 50 y el 69% de las respuestas correctas de modelos de parámetros 7-9B contienen razonamientos fundamentalmente defectuosos. Los investigadores llaman a esto el fenómeno del "Acierto-por-Razones-Incorrectas". Considera un cálculo financiero. El modelo responde correctamente "12" a "¿Qué es el 15% del 80?" Pero su razonamiento muestra que se multiplica por 0,2 en lugar de 0,15. El resultado es correcto. La lógica está rota. En el despliegue, estos fallos ocultos se acumulan de forma catastrófica. El estudio analizó 10.734 trazas de razonamiento entre Llama-3-8B, Mistral-7B y Qwen-2.5-7B en tareas matemáticas, QA multi-saltos y tareas de sentido común. Introducen la Puntuación de Integridad del Razonamiento (RIS), una métrica basada en procesos que evalúa cada paso en lugar de solo los resultados finales. RAG mejora consistentemente la integridad del razonamiento con tamaños de efecto de tamaño medio a grande (d de Cohen = 0,23-0,93). Funciona proporcionando andamiaje externo que fundamenta los cálculos en la evidencia recuperada, reduciendo los errores de cálculo en un 7,6%. Pero aquí está el hallazgo sorprendente: la autocrítica y la verificación provocan que perjudiquen activamente el rendimiento (d = -0,14 a -0,33). Los investigadores llaman a esto "pseudo-reflexión". Los modelos pequeños carecen de una capacidad metacognitiva genuina. Cuando se les pide que critiquen su razonamiento, en realidad no reflexionan. Generan texto que parece un reflejo mientras inventan justificaciones que suenan plausibles pero incorrectas. Para permitir su despliegue, condensaron las capacidades de verificación en un clasificador neural ligero, logrando 0,86 F1 con una velocidad de 100 veces mayor que los jueces LLM. Esto hace que la evaluación de confianza en tiempo real sea práctica. La lección aquí es que la precisión por sí sola es peligrosamente insuficiente para desplegar agentes modelo pequeños. La verificación basada en procesos debe convertirse en una capa estándar de seguridad. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: