Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI. З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.
Критика-РЛ: Підготовка мовних моделей для критики за допомогою двоетапного навчання з підкріпленням Ця стаття спрямована на розробку моделей мови критики, які не покладаються на сильніший нагляд або функцію винагороди оракула під час тестування.
Вони пропонують Critique-RL, 2-ступеневий підхід RL, онлайн-підхід RL, заснований на взаємодії актора і критика для розробки моделей критики. Масштабні експерименти показують, що метод перевершує базові показники, даючи кращу продуктивність з Qwen 2.5 7B.
PACR: Винагорода за прогресивно зростаючу впевненість для міркувань LLM Ця робота запитує, чи можна отримати поетапний нагляд за моделлю. Вони вводять PACR — щільний, властивий моделі сигнал, що перетворює зростання впевненості в поетапне спостереження за RL.
Вони виявляють, серед іншого, що послідовне зростання впевненості сильно корелює з правильністю кінцевої відповіді. Завдяки численним критеріям міркувань, доповнення RLVR методами PACR покращує динаміку тренувань і кінцеву продуктивність.
Кінець ручного декодування: на шляху до справді наскрізних мовних моделей У цьому документі пропонується AutoDeco – архітектура, яка створює «наскрізну» LM, здатну керувати власним процесом декодування. Вони доповнюють трансформатор головками передбачення.
Головки AutoDeco використовують поточний прихований стан моделі, щоб динамічно передбачити оптимальні параметри вибірки для наступного токена. Вони випускають головки AutoDeco для Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 і GPT-OSS-120 і перевіряють на кількох інших моделях.
Масштабування латентних міркувань за допомогою зациклених мовних моделей Ця стаття має на меті дослідити поведінку масштабування LoopLM у різних аспектах. Вони розробляють нові цілі для тренування ефективних рекурентних обчислень зі збереженням максимальної продуктивності.
Вони тренують дві моделі, LoopLM з параметрами 1.4B і 2.6B, на токенах 7.7T, які відповідають продуктивності стандартних трансформаторів 4B і 8B майже у всіх тестах, досягаючи покращення ефективності параметрів на 2-3×. Вони також досліджують причини, чому закільцьовані трансформатори кращі.
Інструмент Decathlon: порівняльний аналіз мовних агентів для різноманітного, реалістичного та довгострокового виконання завдань Вводить орієнтир для оцінювання мовних агентів. TOOLATHLON ґрунтується на реалістичних сценаріях, які вимагають кількох програм.
TOOLATHLON вимагає, в середньому, 4–6 годин роботи аспіранта-дослідника за спеціальністю CS. Добре показують себе Sonnet 4.5, GPT-5 і Grok4. Вони спостерігають значні відмінності між показниками успішності Pass@3 та Passˆ3, що вказує на охоплення можливостями, але проблеми з узгодженістю.
Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також @ritualnet дізнатися більше про те, що будує Ritual.
3,91K