みんなChatGPTのメモリはベクトルデータベースやセマンティックサーチを備えた高度なRAGシステムだと思い込んでいます。 マンサンがそれを逆解析したんだ。実際のアーキテクチャはほとんど期待外れのほどシンプルで、期限切れになるセッションメタデータ、テキストとして保存される明示的な事実、軽量なチャット要約、そしてスライドウィンドウがあります。 埋め込みもありません。類似性の検索もありません。大規模な回収もできません。 面白いのは?これが速く感じる理由です。従来のRAGシステムはすべてのメッセージを埋め込み、各クエリに対して類似性検索を実行し、完全なコンテキストを取得します。ChatGPTはあらかじめ計算された要約を直接注入します。彼らは詳細な歴史的背景をレイテンシと交換しているのです。 これはAIインフラ全体で繰り返し浮かび上がる教訓と同じです。スタック全体をコントロールすれば、キュレーションされたシンプルさが洗練された複雑さを上回ることが多いのです。OpenAIは一般的な検索システムを構築する必要はありません。ChatGPTで動作するものが必要なだけです。 4層アーキテクチャ(セッションメタデータ→保存された事実→会話の要約→スライドウィンドウ)は、基本的に手作りのメモリ階層です。各レイヤーは異なる持続性と異なる目的を持っています。セッションメタデータはリアルタイムで適応します。事実は永遠に残ります。要約は連続性を提供します。ウィンドウは一貫性を保っています。 Anthropicのメモリシステムも同様のパターンを使っています。最も個人的に感じられるモデルは、最も高度なリトリーブ能力を持つものではありません。彼らは適切なものを保存し、適切なタイミングで注入する人たちです。