Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Взлом вознаграждения @primeintellect
will brown сделал репост
Рецепт пост-тренировки Qwen3 1.7B в модель DeepResearch
Что значит, что что-то маленькое может глубоко мыслить? Познакомьтесь с Люси, пост-тренированной моделью Qwen3-1.7B как DeepResearch на основе проверок @willccbb.
Основные правила вознаграждений на основе правил:
- Корректность ответа
Мы проверяем, содержит ли окончательный ответ буквально истинный ответ. Это сопоставление подстрок дешевое и избегает вызова более крупной модели LLM для оценки.
- Соотношение посещений/поисков
Если агент посещает как минимум столько же страниц, сколько выдает поисковых запросов, он получает ((visit_search_ratio - 1) / 4) ** 0.25. Если он ищет больше, чем посещает, балл составляет -0.5.
Формат / Анти-вознаграждение за взлом:
- Успех выполнения инструмента
Каждый вызов API, который возвращается без ошибки, учитывается. Вознаграждение составляет (успешные_вызовы * уникальные_используемые_инструменты) / общее количество попыток вызова.
- Эффективность мышления
Скос-нормальный штраф, сосредоточенный на 70 токенах, discourages бесконечную цепочку размышлений между вызовами инструментов, при этом позволяя достаточно токенов для планирования.
Вот как Qwen3 1.7B научился искать, посещать и синтезировать информацию. Маленькие модели тоже могут проводить глубокие исследования!
37,76K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные