Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Хакерські @primeintellect винагороди
Користувач will brown поділився
Рецепт для переходу Qwen3 1.7B у модель DeepResearch
Що означає для чогось маленького глибоко мислити? Зустрічайте Люсі, пост-навчену Qwen3-1.7B як модель DeepResearch, засновану на верифікаторах @willccbb.
Основні винагороди на основі правил:
- Правильність відповіді
Ми перевіряємо, чи містить остаточна відповідь буквально відповідь. Цей збіг підрядків є дешевим і дозволяє уникнути виклику більшого судді LLM.
- Співвідношення відвідувань/пошукових запитів
Якщо агент відвідує хоча б стільки сторінок, скільки видає пошукові запити, він отримує ((visit_search_ratio - 1) / 4) ** 0,25. Якщо він шукає більше, ніж відвідує, оцінка становить -0,5.
Формат / Anti Reward-Hacking Rewarding:
- Успішне виконання інструменту
Кожен виклик API, який повертається без помилки, зараховується. Нагорода становить (successful_calls * unique_tools_used) / total_call_attempts.
- Ефективність мислення
Звичайний штраф із центром у 70 токенів перешкоджає нескінченному ланцюжку думок між дзвінками інструментів, водночас дозволяючи достатньо токенів для планування.
Так Qwen3 1.7B навчився шукати, відвідувати та синтезувати інформацію. Маленькі моделі також можуть проводити глибокі дослідження!
37,17K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги