Les petits modèles peuvent être corrects pour des raisons entièrement erronées. Les métriques de précision vous indiquent qu'un modèle a donné la bonne réponse. Elles ne vous disent pas si le raisonnement était solide. Pour les agents autonomes, cette distinction est cruciale. Cette nouvelle recherche révèle une crise de fiabilité cachée : 50 à 69 % des réponses correctes des modèles de 7 à 9 milliards de paramètres contiennent un raisonnement fondamentalement défaillant. Les chercheurs appellent cela le phénomène "Droit pour de Mauvaises Raisons". Considérons un calcul financier. Le modèle répond "12" correctement à "Quel est 15 % de 80 ?" Mais son raisonnement montre qu'il a multiplié par 0,2 au lieu de 0,15. La sortie est correcte. La logique est brisée. En déploiement, de telles défaillances cachées se cumulent de manière catastrophique. L'étude a analysé 10 734 traces de raisonnement à travers Llama-3-8B, Mistral-7B et Qwen-2.5-7B sur des tâches de mathématiques, de questions-réponses multi-étapes et de bon sens. Ils introduisent le Score d'Intégrité du Raisonnement (RIS), une métrique basée sur le processus qui évalue chaque étape plutôt que juste les résultats finaux. RAG améliore systématiquement l'intégrité du raisonnement avec des tailles d'effet de moyenne à grande (d de Cohen = 0,23-0,93). Cela fonctionne en fournissant un échafaudage externe qui ancre les calculs dans des preuves récupérées, réduisant les erreurs de calcul de 7,6 %. Mais voici la découverte surprenante : les invites d'auto-critique et de vérification nuisent activement à la performance (d = -0,14 à -0,33). Les chercheurs appellent cela "pseudo-réflexion". Les petits modèles manquent de véritable capacité méta-cognitive. Lorsqu'on leur demande de critiquer leur raisonnement, ils ne réfléchissent pas réellement. Ils génèrent un texte qui ressemble à une réflexion tout en inventant des justifications plausibles mais incorrectes. Pour permettre le déploiement, ils ont distillé les capacités de vérification en un classificateur neural léger, atteignant 0,86 F1 avec un gain de vitesse de 100x par rapport aux juges LLM. Cela rend l'évaluation de confiance en temps réel pratique. La leçon ici est que la précision seule est dangereusement insuffisante pour déployer des agents de petits modèles. La vérification basée sur le processus doit devenir une couche de sécurité standard. Article : Apprenez à construire des agents IA efficaces dans notre académie :