Знайомимося з EvoSkill: фреймворком, який аналізує збоїв агентів і автоматично розвиває відсутні навички, що призводить до швидкого покращення складних бенчмарків і узагальнених навичок у різних кейсах використання. +12,1% на SealQA +7,3% на OfficeQA (SOTA) +5,3% на BrowseComp через zero-shot трансфер від SealQA Детальніше читайте нижче 🧵
2/ Навички агента — це потужна абстракція для розв'язання довгострокових задач, але не може легко масштабуватися Кодові агенти (Claude Code, Codex, OpenHands) — це потужні універсальні розв'язувачі. Однак у спеціалізованих довготривалих завданнях помилки накопичуються без відстежуваності, а галузеві експертизи відсутні. Навички стали потужним методом абстракції для покращення ефективності агента у реальних завданнях, але сучасні навички ретельно виробляються експертами. Ми відкрили шлях до надійної автоматизації розвитку навичок.
3/ EvoSkill застосовує текстовий зворотний зв'язок для відкриття навичок Цикл керує трьома спеціалізованими агентами: 1. Executor: Виконує набір завдань у поточній конфігурації навички 2. Пропонент: аналізує невдалі сліди, звіряє накопичену історію зворотного зв'язку попередніх пропозицій і виявляє найбільший розрив у спроможностях 3. Конструктор навичок: матеріалізує пропозицію у структуровану папку навичок (SKILL.md + скрипти + посилання тощо). Відбір керує Парето-межами верхніх N-конфігурацій, де виживають лише навички, що покращують валідацію тестового набору.
4/ EvoSkill досягає швидкої продуктивності, використовуючи лише частину бенчмаркових даних Ми протестували продуктивність за трьома бенчмарками: 1. OfficeQA (міркування над великими корпорами): 60,6% → 67,9% (+7,3%) та досягнення SOTA у всіх системах 2. SealQA (QA, доповнений пошуком): 26,6% → 38,7% (+12,1%) 3. BrowseComp (відкритий веб-пошук фактів): 43,5% → 48,8% (+5,3%); нульовий трансфер із навичок, еволюціонованих SealQA, без змін Результат BrowseComp виник із навичок, розроблених на SealQA (переформулювання запитів, багатоджерелова верифікація, структурована стійкість пошуку), які переносять zero shot на бенчмарк з різними питаннями, розподілом складності та умовами пошуку. Це свідчить про те, що оптимізація рівня навичок створює загальні можливості для домену, а не перенавантаження конкретних завдань.
5/ Оптимізація рівня навичок — це краща абстракція для створення переносних можливостей більш модульними, ніж запити чи код. EvoSkill повністю відкритий. Ми вважаємо, що навички знаходяться у критичній точці, яку не можуть охопити запити та код — достатньо структуровані, щоб кодувати багатокрокові процедури з розгалуженою логікою/верифікацією, і достатньо читабельні, щоб розробник міг перевіряти, редагувати та передавати їх іншому агенту на іншій моделі. Ми продовжуємо цю роботу у ширших сферах (кодування, мультимодальність) у співпраці з Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham та @WeiyuanChen01) і відкриті до співпраці з ширшою науковою спільнотою.
139