Los modelos pequeños pueden ser correctos por razones completamente equivocadas. Las métricas de precisión te dicen que un modelo obtuvo la respuesta correcta. No te dicen si el razonamiento fue sólido. Para los agentes autónomos, esta distinción es crítica. Esta nueva investigación revela una crisis de fiabilidad oculta: entre el 50% y el 69% de las respuestas correctas de modelos de 7-9B de parámetros contienen razonamientos fundamentalmente defectuosos. Los investigadores llaman a esto el fenómeno "Correcto por Razones Incorrectas". Considera un cálculo financiero. El modelo responde "12" correctamente a "¿Cuál es el 15% de 80?" Pero su razonamiento muestra que multiplicó por 0.2 en lugar de 0.15. La salida es correcta. La lógica está rota. En la implementación, tales fallos ocultos se acumulan de manera catastrófica. El estudio analizó 10,734 trazas de razonamiento a través de Llama-3-8B, Mistral-7B y Qwen-2.5-7B en tareas de matemáticas, preguntas y respuestas de múltiples pasos y sentido común. Introducen el Índice de Integridad del Razonamiento (RIS), una métrica basada en procesos que evalúa cada paso en lugar de solo las salidas finales. RAG mejora consistentemente la integridad del razonamiento con tamaños de efecto de medio a grande (d de Cohen = 0.23-0.93). Funciona proporcionando andamiaje externo que fundamenta los cálculos en evidencia recuperada, reduciendo los errores de cálculo en un 7.6%. Pero aquí está el hallazgo sorprendente: las auto-críticas y los prompts de verificación perjudican activamente el rendimiento (d = -0.14 a -0.33). Los investigadores llaman a esto "pseudo-reflexión". Los modelos pequeños carecen de una capacidad meta-cognitiva genuina. Cuando se les pide que critiquen su razonamiento, en realidad no reflexionan. Generan texto que parece una reflexión mientras inventan justificaciones plausibles pero incorrectas. Para habilitar la implementación, destilaron las capacidades de verificación en un clasificador neural ligero, logrando 0.86 F1 con una aceleración de 100x sobre los jueces LLM. Esto hace que la evaluación de confianza en tiempo real sea práctica. La lección aquí es que la precisión por sí sola es peligrosamente insuficiente para implementar agentes de modelos pequeños. La verificación basada en procesos debe convertirse en una capa de seguridad estándar. Artículo: Aprende a construir agentes de IA efectivos en nuestra academia: