Küçük modeller tamamen yanlış nedenlerle doğru olabilir. Doğruluk metrikleri, bir modelin doğru cevabı verdiğini gösterir. Gerekçenin doğru olup olmadığını söylemiyorlar. Otonom ajanlar için bu ayrım kritik öneme sahiptir. Bu yeni araştırma gizli bir güvenilirlik krizini ortaya koyuyor: 7-9B parametre modellerinden alınan doğru cevapların %50-69'u temelde kusurlu akıl yürütme içeriyor. Araştırmacılar buna "Yanlış Sebepler Için Doğru" olgusu adını veriyor. Bir finansal hesaplama düşünün. Model, "%15 80 nedir?" diye doğru cevap verir. Ama mantığı bunun 0.15 yerine 0.2 ile çarptığını gösteriyor. Çıktı doğru. Mantık bozulmuş. Konuşlandırmada, bu gizli başarısızlıklar felaket şekilde biriktiriyor. Çalışma, Llama-3-8B, Mistral-7B ve Qwen-2.5-7B üzerinde matematik, çoklu soru soruları ve sağduyu görevleri üzerine 10.734 akıl yürütme izini analiz etti. Sadece nihai çıktıları değil, her adımı değerlendiren süreç tabanlı bir metrik olan Akıl Yürütme Bütünlüğü Puanını (RIS) tanıtıyorlar. RAG, orta-büyük etki boyutlarında (Cohen'in d = 0.23-0.93) akıl yürütme bütünlüğünü tutarlı şekilde artırır. Hesaplamaları elde edilen kanıtlara dayandıran dış iskele sağlayarak çalışır ve hesaplama hatalarını %7,6 azaltır. Ama işte şaşırtıcı bulgu: Kendini eleştiri ve doğrulama promptları performansa aktif olarak zarar verir (d = -0.14 ile -0.33). Araştırmacılar buna "sahte yansıma" diyor. Küçük modeller gerçek meta-bilişsel kapasiteye sahip değildir. Gerekçelerini eleştirmeleri istendiğinde, aslında yansıtmıyorlar. Yansıtma gibi görünen metin üretirken, malandırıcı ama yanlış gerekçeler uyduruyorlar. Dağıtımı mümkün kılmak için, doğrulama yeteneklerini hafif bir sinirsel sınıflandırıcıya dönüştürdüler ve LLM yargıçlarına göre 100 kat hızlama ile 0.86 F1 elde ettiler. Bu, gerçek zamanlı güven değerlendirmesini pratik hale getirir. Buradaki ders, sadece doğruluğun küçük model ajanları yerleştirmek için tehlikeli derecede yetersiz olduğudur. Süreç tabanlı doğrulama standart bir güvenlik katmanı haline gelmelidir. Makale: Akademimizde etkili yapay zeka ajanları oluşturmayı öğrenin: