每個人都認為 ChatGPT 的記憶是一個複雜的 RAG 系統,配有向量數據庫和語義搜索。 Manthan 進行了逆向工程。實際架構幾乎令人失望地簡單:會話元數據會過期,顯式事實以文本形式存儲,輕量級聊天摘要,以及滑動窗口。 沒有嵌入。沒有相似性搜索。沒有大規模檢索。 有趣的部分是?這解釋了為什麼它感覺如此快速。傳統的 RAG 系統會嵌入每條消息,對每個查詢進行相似性搜索,提取完整上下文。ChatGPT 只是直接注入預先計算的摘要。他們在延遲上交易詳細的歷史上下文。 這是 AI 基礎設施中不斷出現的相同教訓:當你控制整個堆棧時,精心策劃的簡單性往往超越複雜的精緻。OpenAI 不需要建立一個通用的檢索系統。他們只需要一個適用於 ChatGPT 的系統。 四層架構(會話元數據 → 存儲事實 → 對話摘要 → 滑動窗口)基本上是一個手工製作的記憶層次結構。每一層都有不同的持久性和不同的目的。會話元數據實時適應。事實永遠持久。摘要提供連貫性。窗口保持一致性。 Anthropic 的記憶系統使用了類似的模式。那些感覺最個性化的模型並不是那些擁有最複雜檢索的模型。它們是那些存儲正確事物並在正確時間注入它們的模型。