Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI. З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.
DeepSeekMath-V2: До самоперевіреного математичного мислення У цій статті представлено DSMath-V2 — модель, навчену на deepseek-3.2-exp для доведення природної мови в математиці. Розрив між поколіннями та верифікацією є серйозною перешкодою для неформального доведення.
Спочатку вони навчають верифікатора моделі за допомогою експертних анотувань для оцінки як правильності відповідей, так і аналізу. Цей верифікатор використовується для навчання фінальної моделі перевірки, яка одночасно записує докази та аналізує їх коректність. Вони здобули золото в IMO 2025.
Штучний колективний розум: відкрита однорідність мовних моделей (і не тільки) У статті представлено INFINITY-CHAT — набір даних із 26K реальних запитів, які приймають кілька відповідей. Використовуючи це, вони досліджують колапс внутрішньо- та міжмодельного режиму у 70+ LM.
Вони виявляють ефект штучного колективного розуму з внутрішньомодельним повторенням, коли модель повторно генерує схожі результати, та міжмодельну однорідність, коли різні моделі сходяться навколо схожих ідей з незначними змінами у формулюваннях. Це породжує питання щодо різноманіття моделей.
Прихована співпраця в багатоагентних системах Робота вводить Latent MAS — наскрізну колаборативну структуру, що працює в безперервному латентному просторі. Конструкція інтегрує як латентну генерацію думок, так і міжагентну латентну передачу пам'яті.
LatentMAS базується на виразності мислення, точності комунікації та складності співпраці. Як у послідовних, так і в ієрархічних налаштуваннях MAS, Qwen 3(4B, 8B і 14B), LatentMAS перевершує текстові базові параметри MAS, підвищуючи точність і зменшуючи використання вихідних токенів.
ToolOrchestra: підвищення інтелекту через ефективну оркестрацію моделей і інструментів Автори пропонують парадигму оркестрації, де інтелект виникає з композитної системи. Модель оркестратора використовує потрібні інструменти у правильному порядку для завдання.
Використовуючи ToolOrchestra, модель 8B навчається з RL для визначення, коли і як викликати інші LM та інструменти. Винагороди балансують правильність, ефективність і відповідність уподобанням користувачів. На HLE Orchestrator перевершує попередні методи з значно нижчими обчислювальними витратами.
Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також @ritualnet дізнатися більше про те, що будує Ritual.
3,35K