Сходи сигмоїдів Після прочитання статті про Дваркеша я звернувся до посилання, яке мене дуже занепокоїло. У дописі він згадує: «Тобі Орд має чудовий допис, де він хитро пов'язує точки між різними бенчмарковими графіками серії O, що натякає: «нам потрібне щось на кшталт масштабування загального RL-обчислення на 1 000 000 разів, щоб отримати поштовх, подібний до рівня GPT.» Це створює враження, що все зупиниться. Тобі навіть сказав дві речі, які мене турбували: 1. «Ми бачили вражаючі здобутки, але вони були життєздатними лише з такої низької бази. Ми дійшли до того, що це занадто дорого, щоб рухатися далі.» 2. "Тепер, коли RL-тренування наближається до свого ефективного ліму, ми, можливо, втратили здатність ефективно перетворювати більше обчислювань на більше інтелекту." Я поцікавився, наскільки це твердження є обґрунтованим і який був протилежний аргумент щодо масштабування реальної лінії. Один хороший друг сказав: «Так, якщо ти наївно масштабуватимеш RL Compute, він буде масштабуватися погано. Але ми не повинні так робити! Ось чому існує так багато компаній, що займаються реальним середовищем. Кращий підхід — масштабуватися під нові, складніші середовища. " Після деяких роздумів я знайшов спосіб стиснути це ще далі: «Уявляти це як сходи — це сигмоїди для нових завдань, світів, цілей — найкорисніший спосіб подумати, як це може тривати ще деякий час.»