トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
エージェンティックメモリーに関する素晴らしい論文です。
LLMエージェントは複雑なタスクを処理するために、長期記憶と短期記憶の両方を必要とします。
しかし、現在のデフォルトアプローチでは、これらをそれぞれ独立したコンポーネントとして扱い、それぞれ独自のヒューリスティック、コントローラー、最適化戦略を持っています。
しかし、メモリは独立した二つのシステムではありません。何を保存し、取り出し、要約し、忘れるかを決める一つの認知プロセスです。
この新しい研究では、ツールベースのアクションを通じて長期記憶管理と短期記憶管理をエージェントのポリシーに直接統合する統一フレームワークAgeMemを導入します。
トリガーベースのルールや補助メモリマネージャに頼る代わりに、エージェントはメモリ操作をいつどのように呼び出すかを学びます:長期保存用のADD, UPDATE, DELETE、コンテキスト管理用のRETRIEVE, SUMMARY, FILTERです。
3段階の段階的進行強化学習(RL)戦略を採用しています。まず、モデルは長期記憶の記憶を学習します。そして短期的なコンテキスト管理を習得します。最後に、両方のタスク設定をフルタスク設定で調整できます。
メモリ操作による断片的な体験を処理するために、段階的なGRPO(グループ相対ポリシー最適化)を設計し、段階間の依存関係を学習可能な信号に変換します。
5つの長期ベンチマークに関する結果:
> Qwen2.5-7Bでは、AgeMemの平均スコアが41.96で、Mem0は37.14と13%の改善を記録しています。
> Qwen3-4Bでは差が広がります:54.31対44.70。長期記憶を追加するだけでも+10〜14%の効果が得られます。
> 強化学習(RL)トレーニングを追加すると、さらに+6%が加算されます。
> 両方のメモリタイプを備えたフルユニファイドシステムは、メモリなしベースラインに比べて最大+21.7%の改善を実現します。
学習可能なツールベースのアクションによる統一メモリ管理は、断片化されたヒューリスティックパイプラインを上回り、エージェントがタスク要求に応じて何を覚え、何を忘れるかを適応的に決定できるようにします。
論文:
...

トップ
ランキング
お気に入り
