DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

NOUVELLE recherche d'Apple. Quand on y pense, les systèmes RAG sont fondamentalement défaillants. La récupération et la génération sont optimisées séparément, la récupération sélectionne des documents en fonction de la similarité de surface tandis que les générateurs produisent des réponses sans retour d'information sur les informations réellement nécessaires. Il y a un décalage architectural. Les récupérateurs denses classent les documents dans l'espace d'embedding tandis que les générateurs consomment du texte brut. Cela crée des espaces de représentation incohérents qui empêchent l'optimisation de bout en bout, un traitement textuel redondant qui provoque un débordement de contexte, et un encodage dupliqué pour la récupération et la génération. Cette nouvelle recherche introduit CLaRa, un cadre unifié qui effectue la récupération et la génération sur des représentations documentaires continues partagées. Ils encodent les documents une fois en représentations de mémoire-token compactes qui servent les deux objectifs. Au lieu de maintenir des embeddings séparés et du texte brut, les documents sont compressés en vecteurs denses sur lesquels le récupérateur et le générateur opèrent directement. Cela permet quelque chose qui était auparavant impossible : des gradients circulant du générateur vers le récupérateur à travers un sélecteur top-k différentiable utilisant l'estimation Straight-Through. Le récupérateur apprend quels documents améliorent réellement la génération de réponses plutôt que de se fier à la similarité de surface. Pour faire fonctionner la compression, ils introduisent SCP, un cadre de pré-entraînement qui synthétise des paires QA et des paraphrases pour enseigner au compresseur quelles informations sont essentielles. Les QA simples capturent des faits atomiques, les QA complexes favorisent le raisonnement relationnel, et les paraphrases préservent la sémantique tout en modifiant la forme de surface. Résultats : Avec une compression de 16x, CLaRa-Mistral-7B dépasse le DRO-Mistral-7B basé sur le texte sur NQ (51.41 contre 51.01 F1) et 2Wiki (47.18 contre 43.65 F1) tout en traitant beaucoup moins de contexte. Avec une compression de 4x, il dépasse les bases de référence de texte non compressé de 2.36 % en moyenne sur Mistral-7B. Plus remarquablement, CLaRa formé uniquement avec une supervision faible à partir de la prédiction du prochain token surpasse les récupérateurs entièrement supervisés avec des étiquettes de pertinence de vérité de terrain. Sur HotpotQA, il atteint 96.21 % Recall@5, dépassant BGE-Reranker (85.93 %) de plus de 10 points malgré l'absence de données de pertinence annotées. Une compression douce bien entraînée peut conserver des informations de raisonnement essentielles tout en réduisant considérablement la longueur d'entrée. Les représentations compressées filtrent le contenu non pertinent et concentrent le générateur sur le contexte pertinent au raisonnement, conduisant à une meilleure généralisation que les entrées de texte brut. Une excellente lecture pour les développeurs d'IA. (ajoutez-le à vos favoris) Article : Apprenez à construire avec RAG et les agents d'IA dans mon académie :

Meilleurs

Classement

Favoris