İşte RAG hakkında yaygın bir yanılgı! Çoğu kişi RAG'ın şu şekilde çalıştığını düşünür: bir belgeyi dizine alın → aynı belgeyi alın. Ancak indeksleme ≠ geri almadır. Dizine eklediğiniz şey, LLM'yi beslediğiniz şey olmak zorunda değildir. Bunu anladıktan sonra, gerçekten çalışan RAG sistemleri oluşturabilirsiniz. İyi RAG'yi mükemmel RAG'den ayıran 4 indeksleme stratejisi şunlardır: 1) Yığın İndeksleme ↳ Bu standart yaklaşımdır. Belgeleri parçalara ayırın, gömün, bir vektör veritabanında saklayın ve en yakın eşleşmeleri alın. ↳ Basit ve etkili, ancak büyük veya gürültülü parçalar hassasiyetinize zarar verir. 2) Alt yığın İndeksleme ↳ Dizin oluşturmak için parçalarınızı daha küçük alt parçalara ayırın, ancak bağlam için tam parçayı alın. ↳ Tek bir bölüm birden fazla kavramı kapsadığında bu güçlüdür. LLM'nizin ihtiyaç duyduğu çevreleyen bağlamı kaybetmeden daha iyi sorgu eşleştirmesi elde edersiniz. 3) Sorgu İndeksleme ↳ Ham metni indekslemek yerine, yığının yanıtlayabileceği varsayımsal sorular oluşturun. Bunun yerine bu soruları dizine ekleyin. ↳ Kullanıcı sorguları doğal olarak sorularla ham belge metninden daha iyi uyum sağlar. Bu, kullanıcıların sorduğu ile depoladığınız şey arasındaki anlamsal boşluğu kapatır. ...