Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Дивовижна невелика знахідка в цій новій статті від Google.
Моделі мислення перевершують моделі, налаштовані на інструкції, у складних завданнях.
Поширене пояснення полягає в тому, що розширені обчислення в часі тестування відбуваються через довші ланцюги думок.
Але це нове дослідження відкриває щось глибше.
Вона припускає, що посилене мислення виникає з неявного моделювання мультиагентоподібних взаємодій у самій моделі.
Дослідники називають це «суспільством думки».
Завдяки кількісному аналізу слідів міркувань з DeepSeek-R1 та QwQ-32B вони виявили, що ці моделі демонструють значно більшу різноманітність перспектив, ніж базові моделі.
Вони активують ширший конфлікт між гетерогенними рисами особистості та експертизи під час мислення.
Як це виглядає?
Розмовна поведінка включає послідовності відповідей на питання, зміни перспектив, конфлікти між точками зору та примирення розбіжностей.
Модель веде дебати сама з собою, приймаючи окремі соціально-емоційні ролі, які характеризують гостру діалогу.
DeepSeek-R1 демонструє значно більше відповідей на запитання, змін поглядів і примирення порівняно з DeepSeek-V3. Така ж схема спостерігається для QwQ-32B проти Qwen-2.5-32B-IT. Моделі, налаштовані на інструкції, створюють односторонні монологи. Моделі мислення створюють імітований діалог.
Успішні моделі мислення уникають «ехо-камери», яка веде до неправильних відповідей. Імітуючи розбіжності між різними точками зору, вони запобігають підлабузницькій відповідності оманливим початковим твердженням.
Контрольовані експерименти з RL показують, що базові моделі спонтанно розвивають розмовну поведінку, якщо їх винагороджують виключно за точність мислення.
Моделі, налаштовані за допомогою розмовної підтримки, навчаються швидше, ніж ті, що налаштовані на монологічне мислення, особливо на ранніх етапах навчання.
...

Найкращі
Рейтинг
Вибране
