Ось Ritual Research Digest цього тижня, інформаційний бюлетень, який висвітлює найновіші новини у світі LLM та перетин Crypto x AI. З сотнями газет, що публікуються щотижня, залишатися в курсі останніх неможливо. Ми читаємо, щоб вам не доводилося цього робити.
Think-at-hard: вибіркові латентні ітерації для покращення моделей мови мислення Динамічна латентна ітерація складна: їй потрібен повний контекст, адаптивні цілі, повторне використання параметрів, але зв'язок якості політики спричиняє нестабільність навчання.
Ця робота вводить TaH — динамічне латентне мислення, яке ітерує лише над твердими токенами, розробляючи спеціалізовану арку моделі та стабільний метод навчання, вибірково застосовуючи латентну ітерацію. Відточена від Qwen3-0.6/1.7B-Base, TaH досягає +4% за 5 бенчмарками логіки.
P1: Опанування олімпіад з фізики з підкріпленням навчання Ця робота вводить P1 — сімейство моделей фізичного мислення OSS. Вони інтегрують як масштабування часу навчання, так і часу тестування, забезпечуючи більш потужну здатність мислення, адаптивно розгорнуту на висновку.
Моделі P1 навчаються виключно через RL після навчання на базових LM у багатоступеневій RL-системі. Для тестування вони поєднують моделі P1 з фреймворком агентів PhysicsMinions. Їхня модель P1-235B-A22B досягла золотих результатів на IPhO 2025.
MiroThinker: Розширення меж продуктивності відкритих дослідницьких агентів через модель, контекст і інтерактивне масштабування У статті представлено дослідницький агент, який підвищує продуктивність за трьома вимірами: розмір моделі, довжину контексту та глибину взаємодії.
Для підтримки процесів глибокого мислення модель оснащена контекстним вікном 256K і до 600 викликів інструментів на завдання. MiroThinker v1.0, оснащений простим агентом ReAct, забезпечує SOTA-продуктивність серед відкритих дослідницьких агентів.
Що потрібно, щоб стати хорошим агентом з досліджень у сфері ШІ? Вивчення ролі різноманіття ідей У цій статті пропонуються методи кількісної оцінки та контролю різноманітності ідей агента. Вибір агентного каркасу суттєво впливає на різноманітність ідей.
За допомогою контрольованого експериментального дизайну вони встановлюють причинно-наслідковий зв'язок, показуючи, що збільшення різноманіття ідей веде до покращення результатів у MLE-лабораторних завданнях. Вони також встановлюють стійкість при оцінці за альтернативними показниками ефективності.
DR Tulu: Підкріплене навчання з еволюційними рубриками для глибоких досліджень Ця стаття навчає глибоких дослідників тулу (DR Tulu-8B), які тренуються до відкритих, довгих завдань глибоких досліджень.
Для вирішення верифікації у довготривалих завданнях DR-Tulu доопрацьовується на високоякісних даних користувачів, а потім навчається через RL з еволюційними рубриками (RLER), у яких рубрики співпрацюють із політичною моделлю під час навчання. Вони отримують кращі результати, ніж найміцніші відкриті моделі 8-32.
Слідкуйте за нами @ritualdigest, щоб дізнатися більше про все, що стосується досліджень crypto x AI, а також @ritualnet дізнатися більше про те, що будує Ritual.
3K