トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
EvoSkillの導入:エージェントの失敗を分析し、不足しているスキルを自動的に構築することで、難しいベンチマークやユースケース全体で汎用可能なスキルを迅速に向上させるフレームワークです。
SealQAで+12.1%
OfficeQA(SOTA)で+7.3%
SealQAからのゼロショット転送によるBrowseCompで+5.3%
以下🧵をご覧ください

2/ エージェントスキルは長期的な問題を解決するための強力な抽象化ですが、容易にスケールアップできません
コーディングエージェント(Claude Code、Codex、OpenHands)は強力な汎用ソルバーです。しかし、長期的な専門的なタスクでは、トレーサビリティが欠けてエラーが重なり、ドメイン固有の専門知識が欠如します。
スキルは、実際のタスクでエージェントのパフォーマンスを向上させる強力な抽象化手法として浮上してきましたが、今日のスキルは専門家によって厳密に手作りされています。
私たちは、確実に自動化できるスキル開発の道筋を発見しました。
3/ EvoSkillはスキル発見にテキストフィードバックの下降を適用します
このループは3つの専門的なエージェントを動かします:
1. 執行者:現在のスキル構成でタスクのバッチを試みます
2. 提案者:失敗した痕跡を分析し、過去の提案の累積フィードバック履歴を照合し、最も影響力のある能力ギャップを特定します
3. スキルビルダー:提案を構造化されたスキルフォルダー(SKILL.md + スクリプト + 参考文献など)に具現化します。
トップN構成のパレートフロンティアが選択を支配し、テストセット検証を改善するスキルだけが生き残ります。

4/ EvoSkillはベンチマークデータのごく一部だけで高速なパフォーマンスを実現しています
私たちは3つのベンチマークでパフォーマンスをテストしました。
1. OfficeQA(大規模なコーパスの推論):60.6%→67.9%(+7.3%)、全システムでSOTAを達成しています
2. SealQA(検索拡張QA):26.6% →38.7%(+12.1%)
3. ブラウズ・コンプ(オープンウェブの事実探索):43.5% → 48.8%(+5.3%);SealQA進化したスキルからのゼロショット転送、改造なし
BrowseCompの結果は、SealQAで開発されたスキル(クエリの再定式化、多元元検証、構造化検索の永続性)に基づいており、ゼロショットを異なる質問、難易度分布、検索条件を持つベンチマークに移行します。これは、スキルレベルの最適化がタスク固有の過学習ではなく、ドメイン汎用的能力を生み出すことを示唆しています。

5/ スキルレベルの最適化は、プロンプトやコードよりもモジュール化された移転可能な能力を生み出すためのより良い抽象化です
EvoSkillは完全オープンソースです。私たちは、スキルはプロンプトやコードが到達できない重要な位置にあると考えています。分岐ロジックや検証を伴う多段階プロシージャをエンコードできる構造化があり、開発者が検査・編集・異なるモデルの別のエージェントに渡せるほど読みやすいものです。
この研究は、バージニア工科大学(@tuvllms、@noahpro99、ジェイドン・ビンガム、@WeiyuanChen01)と協力し、コーディングやマルチモーダルなどのより広い分野にわたって継続しており、より広範な研究コミュニティとの協力にもオープンです。
135
トップ
ランキング
お気に入り
