トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AIエージェントの記憶力向上に関する新しい研究。
(ブックマーク)
コンテキストウィンドウが数百万トークンにスケールするにつれて、ボトルネックは生の容量から認知制御へと移行します。自分が知っていること、欠けているものを知ること、そしていつ止めるべきかを知ることは、すべてのトークンを処理するよりも重要です。
長いコンテキストウィンドウが良い理由を保証するわけではありません。これは主に、今日の開発者が超長文書を扱う方法が、コンテキストウィンドウを拡大したり、すべてを一回のパスに圧縮したりしているためです。
しかし、決定的な証拠が乏しく、百万トークンに散らばっている場合、受動的記憶戦略は多重ホップ推論に必要な橋渡し事実を静かに捨て去ります。
この新しい研究では、System-2スタイルの認知制御を構造化されたPRETHINK–RETRIEVE–WRITE(事前思考・回収・書き込み)プロトコルを通じて長文の質問応答に適用する、バウンデッドメモリエージェントInfMemを導入します。
InfMem は各セグメントをストリーミング時に受動的に圧縮するのではなく、メモリが質問に答えるのに十分かどうかを積極的に監視します。現在の証拠は十分でしょうか?何が足りない?文書のどこを見ればいいですか?
PRETHINKは認知制御者として機能し、停止するかさらなる証拠を回収するかを判断します。証拠の抜けがある場合、ターゲットを絞った検索クエリを統合し、文書内の任意の場所から関連する箇所を取得し、すでに通過した以前のセクションも含まれます。WRITEは次に、取得した証拠を現在のセグメントと統合し、固定予算のもとで有界メモリに統合します。
トレーニングレシピでは、SFTウォームアップを用いてQwen3-32Bからの抽出を通じてプロトコルのメカニクスを教え、その後強化学習で結果ベースの報酬と早期停止形成を用いて、検索、書き込み、停止の意思決定を最終タスクの正確性と整合させます。
32kトークンから1Mトークンまでの超長期QAベンチマークでは、InfMemはQwen3-1.7B、Qwen3-4B、Qwen2.5-7BでそれぞれMemAgentを+10.17、+11.84、+8.23の平均絶対精度ポイントで上回っています。
4BパラメータのInfMemエージェントは、YaRNのような標準的な基準値が一桁のパフォーマンスに崩壊する中、最大100万トークンまで一貫した精度を維持できます。アダプティブアーリーストップにより推論遅延は平均3.9倍(最大5.1倍)減少します。
これらの成果はLongBench QAにも反映され、InfMem+RLはYaRNベースラインに比べて個別タスクで最大+31.38の絶対改善を実現しています。
論文:
私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう:

トップ
ランキング
お気に入り
