Малые модели могут быть правильными по совершенно неправильным причинам. Метрики точности говорят вам, что модель дала правильный ответ. Они не говорят вам, было ли рассуждение обоснованным. Для автономных агентов это различие критично. Это новое исследование выявляет скрытый кризис надежности: 50-69% правильных ответов от моделей с 7-9 миллиардами параметров содержат фундаментально ошибочные рассуждения. Исследователи называют это явление "Правильные по Неправильным Причинам". Рассмотрим финансовый расчет. Модель правильно отвечает "12" на вопрос "Какова 15% от 80?" Но ее рассуждение показывает, что она умножила на 0.2 вместо 0.15. Вывод правильный. Логика сломана. В процессе развертывания такие скрытые ошибки катастрофически накапливаются. В исследовании было проанализировано 10,734 следа рассуждений на Llama-3-8B, Mistral-7B и Qwen-2.5-7B по математике, многопроходным вопросам и задачам на здравый смысл. Они вводят Оценку Целостности Рассуждений (RIS), основанную на процессе метрику, которая оценивает каждый шаг, а не только конечные результаты. RAG последовательно улучшает целостность рассуждений со средними и большими эффектами (d = 0.23-0.93). Это работает, предоставляя внешнюю опору, которая основывает расчеты на извлеченных доказательствах, снижая ошибки расчетов на 7.6%. Но вот удивительная находка: самокритика и проверки активно вредят производительности (d = -0.14 до -0.33). Исследователи называют это "псевдо-рефлексией". Малые модели не обладают подлинной мета-когнитивной способностью. Когда их просят критиковать свои рассуждения, они на самом деле не размышляют. Они генерируют текст, который выглядит как рефлексия, в то время как изобретают правдоподобные, но неверные обоснования. Чтобы обеспечить развертывание, они дистиллировали возможности проверки в легкий нейронный классификатор, достигнув 0.86 F1 с ускорением в 100 раз по сравнению с судьями LLM. Это делает практическим оценку доверия в реальном времени. Урок здесь в том, что точности одной недостаточно для развертывания агентов малой модели. Проверка на основе процесса должна стать стандартным уровнем безопасности. Статья: Научитесь создавать эффективные AI-агенты в нашей академии: