Model kecil bisa benar karena alasan yang sama sekali salah. Metrik akurasi memberi tahu Anda bahwa model mendapatkan jawaban yang benar. Mereka tidak memberi tahu Anda apakah alasannya masuk akal. Untuk agen otonom, perbedaan ini sangat penting. Penelitian baru ini mengungkapkan krisis keandalan tersembunyi: 50-69% jawaban yang benar dari model parameter 7-9B mengandung penalaran yang cacat secara fundamental. Para peneliti menyebut ini fenomena "Benar-untuk-Salah-Alasan". Pertimbangkan perhitungan keuangan. Model menjawab "12" dengan benar untuk "Berapa 15% dari 80?" Tetapi alasannya menunjukkan itu dikalikan 0,2, bukan 0,15. Hasilnya benar. Logikanya rusak. Dalam penyebaran, kegagalan tersembunyi seperti itu bertambah parah. Studi ini menganalisis 10.734 jejak penalaran di Llama-3-8B, Mistral-7B, dan Qwen-2.5-7B pada matematika, QA multi-hop, dan tugas akal sehat. Mereka memperkenalkan Reasoning Integrity Score (RIS), metrik berbasis proses yang mengevaluasi setiap langkah, bukan hanya hasil akhir. RAG secara konsisten meningkatkan integritas penalaran dengan ukuran efek sedang hingga besar (d Cohen = 0,23-0,93). Ini bekerja dengan menyediakan perancah eksternal yang mendasari perhitungan pada bukti yang diambil, mengurangi kesalahan perhitungan sebesar 7,6%. Tapi inilah temuan yang mengejutkan: kritik diri dan verifikasi secara aktif merusak kinerja (d = -0,14 hingga -0,33). Para peneliti menyebut ini "refleksi semu." Model kecil tidak memiliki kapasitas meta-kognitif asli. Ketika diminta untuk mengkritik alasan mereka, mereka tidak benar-benar merenung. Mereka menghasilkan teks yang terlihat seperti refleksi sambil menciptakan pembenaran yang terdengar masuk akal tetapi salah. Untuk memungkinkan penerapan, mereka menyaring kemampuan verifikasi ke dalam pengklasifikasi saraf yang ringan, mencapai 0,86 F1 dengan kecepatan 100x dibandingkan juri LLM. Ini membuat penilaian kepercayaan waktu nyata praktis. Pelajaran di sini adalah bahwa akurasi saja sangat tidak memadai untuk menyebarkan agen model kecil. Verifikasi berbasis proses perlu menjadi lapisan keamanan standar. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: