熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
來自 Apple 的新研究。
仔細想想,RAG 系統在根本上是有缺陷的。檢索和生成是分開優化的,檢索根據表面相似性選擇文檔,而生成器則在沒有關於實際需要什麼信息的反饋的情況下生成答案。
這存在架構不匹配。
密集檢索器在嵌入空間中對文檔進行排名,而生成器則消耗原始文本。這創造了不一致的表示空間,阻礙了端到端的優化,冗餘的文本處理導致上下文溢出,以及檢索和生成的重複編碼。
這項新研究介紹了 CLaRa,一個統一的框架,對共享的連續文檔表示進行檢索和生成。
它們將文檔編碼一次,轉換為緊湊的記憶令牌表示,滿足兩個目的。與其維護單獨的嵌入和原始文本,不如將文檔壓縮為密集向量,檢索器和生成器都可以直接操作。
這使得以前不可能的事情成為可能:通過可微分的 top-k 選擇器使用直通估計,梯度從生成器流回檢索器。檢索器學會哪些文檔真正增強答案生成,而不是依賴表面相似性。
為了使壓縮有效,它們引入了 SCP,一個預訓練框架,合成 QA 對和改寫,以教導壓縮器哪些信息是必需的。簡單的 QA 捕捉原子事實,複雜的 QA 促進關係推理,而改寫則在改變表面形式的同時保留語義。
結果:
在 16 倍壓縮下,CLaRa-Mistral-7B 在 NQ 上超越了基於文本的 DRO-Mistral-7B(51.41 對 51.01 F1)和 2Wiki(47.18 對 43.65 F1),同時處理的上下文要少得多。在 4 倍壓縮下,它在 Mistral-7B 上超過了未壓縮文本基準 2.36% 的平均值。
最值得注意的是,CLaRa 僅用來自下一個標記預測的弱監督進行訓練,超越了擁有真實相關性標籤的完全監督檢索器。在 HotpotQA 上,它達到了 96.21% 的 Recall@5,超過了 BGE-Reranker(85.93%)超過 10 分,儘管沒有使用任何標註的相關性數據。
經過良好訓練的軟壓縮可以保留重要的推理信息,同時大幅減少輸入長度。壓縮的表示過濾掉不相關的內容,並使生成器專注於推理相關的上下文,從而比原始文本輸入更好地進行泛化。
對 AI 開發者來說是個很好的閱讀材料。(收藏一下)
論文:
在我的學院學習如何與 RAG 和 AI 代理一起構建:

熱門
排行
收藏
