一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

來自 Apple 的新研究。仔細想想，RAG 系統在根本上是有缺陷的。檢索和生成是分開優化的，檢索根據表面相似性選擇文檔，而生成器則在沒有關於實際需要什麼信息的反饋的情況下生成答案。這存在架構不匹配。密集檢索器在嵌入空間中對文檔進行排名，而生成器則消耗原始文本。這創造了不一致的表示空間，阻礙了端到端的優化，冗餘的文本處理導致上下文溢出，以及檢索和生成的重複編碼。這項新研究介紹了 CLaRa，一個統一的框架，對共享的連續文檔表示進行檢索和生成。它們將文檔編碼一次，轉換為緊湊的記憶令牌表示，滿足兩個目的。與其維護單獨的嵌入和原始文本，不如將文檔壓縮為密集向量，檢索器和生成器都可以直接操作。這使得以前不可能的事情成為可能：通過可微分的 top-k 選擇器使用直通估計，梯度從生成器流回檢索器。檢索器學會哪些文檔真正增強答案生成，而不是依賴表面相似性。為了使壓縮有效，它們引入了 SCP，一個預訓練框架，合成 QA 對和改寫，以教導壓縮器哪些信息是必需的。簡單的 QA 捕捉原子事實，複雜的 QA 促進關係推理，而改寫則在改變表面形式的同時保留語義。結果：在 16 倍壓縮下，CLaRa-Mistral-7B 在 NQ 上超越了基於文本的 DRO-Mistral-7B（51.41 對 51.01 F1）和 2Wiki（47.18 對 43.65 F1），同時處理的上下文要少得多。在 4 倍壓縮下，它在 Mistral-7B 上超過了未壓縮文本基準 2.36% 的平均值。最值得注意的是，CLaRa 僅用來自下一個標記預測的弱監督進行訓練，超越了擁有真實相關性標籤的完全監督檢索器。在 HotpotQA 上，它達到了 96.21% 的 Recall@5，超過了 BGE-Reranker（85.93%）超過 10 分，儘管沒有使用任何標註的相關性數據。經過良好訓練的軟壓縮可以保留重要的推理信息，同時大幅減少輸入長度。壓縮的表示過濾掉不相關的內容，並使生成器專注於推理相關的上下文，從而比原始文本輸入更好地進行泛化。對 AI 開發者來說是個很好的閱讀材料。（收藏一下）論文：在我的學院學習如何與 RAG 和 AI 代理一起構建：