Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NY forskning från Apple.
När man tänker efter är RAG-systemen fundamentalt trasiga. Återvinning och generering optimeras separat, återvinning väljer dokument baserat på ytlig likhet medan generatorer ger svar utan återkoppling om vilken information som faktiskt behövs.
Det finns en arkitektonisk mismatch.
Täta retrievers rangordnar dokument i embedding-utrymmet medan generatorer konsumerar råtext. Detta skapar inkonsekventa representationsutrymmen som förhindrar end-to-end-optimering, redundant textbehandling som orsakar kontextöverflöd, och duplicerad kodning för både hämtning och generering.
Denna nya forskning introducerar CLaRa, ett enhetligt ramverk som utför hämtning och generering över delade kontinuerliga dokumentrepresentationer.
De kodar dokument en gång till kompakta minnestoken-representationer som tjänar båda syftena. Istället för att behålla separata inbäddningar och råtext komprimeras dokument till täta vektorer som både hämtaren och generatorn arbetar direkt med.
Detta möjliggör något som tidigare var omöjligt: gradienter som flödar från generatorn tillbaka till retrievern genom en differentierbar top-k-selektor med Straight-Through-estimering. Retrievern lär sig vilka dokument som verkligen förbättrar svarsgenereringen istället för att förlita sig på ytlig likhet.
För att få komprimering att fungera introducerar de SCP, ett förträningsramverk som syntetiserar QA-par och parafraserar för att lära kompressorn vilken information som är nödvändig. Enkel QA fångar atomära fakta, komplex QA främjar relationell resonemang, och parafraser bevarar semantik samtidigt som ytformen förändras.
Resultat:
Vid 16x komprimering överträffar CLaRa-Mistral-7B den textbaserade DRO-Mistral-7B på NQ (51.41 vs 51.01 F1) och 2Wiki (47.18 vs 43.65 F1) samtidigt som den bearbetar mycket mindre kontext. Vid 4x komprimering överträffar den okomprimerad text med 2,36 % i genomsnitt på Mistral-7B.
Framför allt presterar CLaRa, tränad med endast svag övervakning från next-token-förutsägelse, bättre än fullt övervakade retrievers med relevansetiketter för grundsanning. På HotpotQA uppnår den 96,21 % Recall@5, vilket överträffar BGE-Reranker (85,93 %) med över 10 procentenheter trots att de saknar annoterad relevansdata.
Vältränad mjuk kompression kan behålla viktig resonemangsinformation samtidigt som den avsevärt minskar inmatningslängden. De komprimerade representationerna filtrerar bort irrelevant innehåll och fokuserar generatorn på resonemangsrelevant kontext, vilket leder till bättre generalisering än råtextinmatning.
Bra läsning för AI-utvecklare. (bokmärk den)
Papper:
Lär dig bygga med RAG och AI-agenter på min akademi:

Topp
Rankning
Favoriter
