Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вот дайджест Ritual Research за эту неделю, информационный бюллетень, охватывающий последние события в мире LLM и пересечении Crypto x AI.
С сотнями статей, публикуемых еженедельно, оставаться в курсе последних новостей невозможно. Мы читаем, чтобы вам не пришлось.

Critique-RL: Обучение языковых моделей для критики с помощью двухступенчатого обучения с подкреплением
Данная работа направлена на разработку языковых моделей для критики, которые не зависят от более сильного контроля или функции вознаграждения оракула во время тестирования.

Они предлагают Critique-RL, подход к обучению с подкреплением (RL) в 2 этапа, онлайн-метод RL, основанный на взаимодействии актера и критика для разработки моделей критики.
Обширные эксперименты показывают, что метод превосходит базовые модели, обеспечивая лучшую производительность с Qwen 2.5 7B.

PACR: Постепенно возрастающая награда за уверенность для рассуждений LLM
В этой работе рассматривается, можно ли получить пошаговое управление от модели. Они вводят PACR, плотный, встроенный в модель сигнал, преобразующий рост уверенности в пошаговое управление для RL.



Они обнаруживают, что последовательный рост уверенности сильно коррелирует с правильностью окончательного ответа.
На нескольких тестах на рассуждение добавление методов PACR к RLVR улучшает динамику обучения и конечные результаты.

Конец ручного декодирования: к действительно сквозным языковым моделям
В этой статье предлагается AutoDeco, архитектура, которая создает «сквозную» языковую модель, способную контролировать собственный процесс декодирования. Они дополняют трансформер предсказательными головами.

Головки AutoDeco используют текущее скрытое состояние модели для динамического предсказания оптимальных параметров выборки для следующего токена.
Они выпускают головки AutoDeco для Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 и GPT-OSS-120 и проверяют с несколькими другими моделями.


Масштабирование латентного рассуждения с помощью циклических языковых моделей
В этой статье рассматривается поведение масштабирования LoopLM в различных аспектах. Они разрабатывают новые цели для обучения эффективным рекуррентным вычислениям, сохраняя при этом максимальную производительность.

Они обучают две модели, LoopLM с 1,4 миллиарда и 2,6 миллиарда параметров на 7,7 триллионах токенов, которые соответствуют производительности стандартных трансформеров с 4 миллиардами и 8 миллиардами параметров по почти всем бенчмаркам, достигая улучшений эффективности параметров в 2-3 раза.
Они также исследуют причины, по которым циклические трансформеры лучше.

Десятиборье инструментов: Бенчмаркинг языковых агентов для разнообразного, реалистичного и долгосрочного выполнения задач
Представляет собой бенчмарк для оценки языковых агентов. TOOLATHLON основан на реалистичных сценариях, которые требуют использования нескольких приложений.

TOOLATHLON требует в среднем 4–6 часов работы от аспиранта, специализирующегося на компьютерных науках.
Sonnet 4.5, GPT-5 и Grok4 показывают хорошие результаты. Они наблюдают значительные различия между показателями Pass@3 и Passˆ3, что указывает на охват возможностей, но проблемы с последовательностью.

Подписывайтесь на нас @ritualdigest, чтобы узнать больше о всем, что связано с криптовалютой и исследованиями в области ИИ, а также @ritualnet, чтобы узнать больше о том, что строит Ritual.
3,92K
Топ
Рейтинг
Избранное

