🧠 長文脈保存のインターフェースとしての推論 前回の投稿(AMemGym)では、インタラクティブな評価がいかに重要かを強調しました。現在、GPT-5.2のような最新の「完璧な」長文脈モデルにこれを適用しています。 ▪️ 大きな疑問は、長期的な課題を解決したかどうかです。 ▪️ 答えは:そうではありません。これは推論と計算のトレードオフの問題です。 ネイティブの長期文脈👇における記憶の仕組みを深く掘り下げる 1. 単なるバックボーンモデルではない GPT-5.2はMRCRベンチマークで大幅な進歩を示しています。しかし、変数を解きほぐすと、その大きな利益は骨格モデルだけでなく高い推論努力によるものであることがわかりました。 2. 記憶方程式 メモリ検索の推論コストを新しい方法で見たい: [最小限の推論努力 ∝ 1 / 記憶品質] 推論は適応型検索エンジンとして機能します。効率的に保存されなかった情報を「再バインド」するために計算コストを支払うことになります。 3. AMemGymの結果 私たちはAMemGym(ICLR'26インタラクティブメモリベンチマーク)でいくつかのフラッグシップモデルをテストし、現実的な長期的なパフォーマンスを評価する。 🔹 推論は乗数器である:高い推論努力は動的で高次の連想において極めて重要です。 🔹 パーソナライズは難しい:フラッグシップモデルでさえ、長期にわたるユーザー状態の維持に苦労します。 🔹 オープンウェイト:GLM-4.7はクローズドモデルに匹敵する強力な可能性を示しています。 4. 未来(シミュレーションを超えて):双方向ドア×テストタイムスケーリング 「非損失」メモリ持続性と適応型テストタイム計算の組み合わせにより、実際のメモリ最適化が可能です。論理の検証や深いデータの取得に大量の計算費を費やすことで、モデルやエージェントは自己監督フィードバックを生成し、メモリ構造を洗練させることができます。これにより、今日の高価な推論が明日のための効率的な認知的近道に変わるのです。 📄 詳細な分析: ...