トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLMにおける主体推論に関する印象的な調査。
(これにブックマーク)
135+ページ!
なぜそれが重要なのでしょうか?
LLMは閉ざされた世界では論理的に機能しますが、情報が進化するオープンエンドで動的な環境では苦戦します。
欠けているピースはアクションです。これは、静的推論が相互作用のないものでは、フィードバックから適応したり、学習したり、改善したりできないからです。
この新しい調査は、エージェント推論のパラダイムを体系化し、LLMを環境との継続的な相互作用を通じて計画し、行動し、学習する自律的なエージェントとして再構築しています。
思考と行動をつなぐ統一されたロードマップを提供し、環境ダイナミクスや最適化設定を横断したエージェントシステム構築のための実践的な指針を提供します。
このフレームワークは、エージェント推論を三つの補完的な次元に沿って組織しています。
1. 基礎的エージェント的推論:計画、ツール使用、検索を含む単一エージェントのコア能力。エージェントは目標を分解し、外部ツールを呼び出し、実行可能なアクションを通じて結果を検証します。これが基盤岩だ。
2. 自己進化型エージェント推論:フィードバック、記憶、適応を通じてエージェントがどのように改善するか。固定された推論の道筋に従うのではなく、エージェントは反省、批判、記憶駆動型学習の仕組みを発展させます。反省、記憶のための強化学習(RL)、継続的な適応は推論と学習を結びつけています。
3. 集合的マルチエージェント推論:孤立したソルバーから協働的なエコシステムへの知能のスケーリング。複数のエージェントが役割割り当て、通信プロトコル、共有メモリを通じて協調します。議論、意見の不一致の解決、そして多ターンの相互作用による一貫性。
すべての層において、調査は2つの最適化モードを区別しています。すなわち、コンテキスト内推論(パラメータ更新なしにオーケストレーションと探索による推論時間計算)と、訓練後推論(強化学習とファインチューニングによる戦略の内化)です。
この調査は、数学の探求、科学的発見、具身型ロボット工学、医療、自律型ウェブ調査など幅広い応用分野をカバーしています。また、エージェント能力を評価するためのベンチマークの状況もレビューしています。
私はこの研究分野を詳しく調べてきましたが、残されている未解決の課題のいくつかを挙げます:パーソナライズ、長期的なインタラクション、ワールドモデリング、スケーラブルなマルチエージェントトレーニング、そして現実世界での展開のためのガバナンスフレームワークです。
...

トップ
ランキング
お気に入り
