エージェンティックメモリーに関する素晴らしい論文です。 LLMエージェントは複雑なタスクを処理するために、長期記憶と短期記憶の両方を必要とします。 しかし、現在のデフォルトアプローチでは、これらをそれぞれ独立したコンポーネントとして扱い、それぞれ独自のヒューリスティック、コントローラー、最適化戦略を持っています。 しかし、メモリは独立した二つのシステムではありません。何を保存し、取り出し、要約し、忘れるかを決める一つの認知プロセスです。 この新しい研究では、ツールベースのアクションを通じて長期記憶管理と短期記憶管理をエージェントのポリシーに直接統合する統一フレームワークAgeMemを導入します。 トリガーベースのルールや補助メモリマネージャに頼る代わりに、エージェントはメモリ操作をいつどのように呼び出すかを学びます:長期保存用のADD, UPDATE, DELETE、コンテキスト管理用のRETRIEVE, SUMMARY, FILTERです。 3段階の段階的進行強化学習(RL)戦略を採用しています。まず、モデルは長期記憶の記憶を学習します。そして短期的なコンテキスト管理を習得します。最後に、両方のタスク設定をフルタスク設定で調整できます。 メモリ操作による断片的な体験を処理するために、段階的なGRPO(グループ相対ポリシー最適化)を設計し、段階間の依存関係を学習可能な信号に変換します。 5つの長期ベンチマークに関する結果: > Qwen2.5-7Bでは、AgeMemの平均スコアが41.96で、Mem0は37.14と13%の改善を記録しています。 > Qwen3-4Bでは差が広がります:54.31対44.70。長期記憶を追加するだけでも+10〜14%の効果が得られます。 > 強化学習(RL)トレーニングを追加すると、さらに+6%が加算されます。 > 両方のメモリタイプを備えたフルユニファイドシステムは、メモリなしベースラインに比べて最大+21.7%の改善を実現します。 学習可能なツールベースのアクションによる統一メモリ管理は、断片化されたヒューリスティックパイプラインを上回り、エージェントがタスク要求に応じて何を覚え、何を忘れるかを適応的に決定できるようにします。 論文: ...