RAG je rozbitý a nikdo o tom 🤯 nemluví Stanford právě vydal článek o "Sémantickém kolapsu", který dokazuje, že jakmile vaše znalostní báze dosáhne ~10 000 dokumentů, sémantické vyhledávání se stává doslova hodem mincí. Tady je důvod, proč váš RAG selhává: Po 10 000 dokumentech se vaše složité AI vyhledávání v podstatě mění v hod mincí. Každý dokument, který přidáte, se promění v vysokorozměrný embedding. V malém měřítku se podobní dokumentáři dokonale shlukují. Ale když přidáte dostatek dat, prostor se zaplní. Vzdálenosti se snižují. Všechno vypadá "relevantně." Je to kletba dimenzionality. V prostoru 1000D je 99,9 % vašich dat na vnější skořepině, téměř stejně vzdálené od jakéhokoliv dotazu. Stanford zjistil pokles přesnosti o 87 % při 50 tisících doktorech. Přidání více kontextu halucinace spíše zhoršuje, ne zlepšuje. Mysleli jsme, že RAG řeší halucinace... Jen je to skrylo za matematikou. Řešením není přeřazení nebo lepší rozdělení částí. Jsou to hierarchické databáze pro vyhledávání a grafy.