Łukasz Kaiser(@OpenAI) сказал, что в некотором смысле предварительное обучение достигло верхней части S-кривой. Однако это не означает, что увеличение масштабов предварительного обучения перестало работать. На самом деле, оно работает совершенно так, как и ожидалось, и такие лаборатории, как OpenAI и Google, а также другие, все наблюдают, что потери уменьшаются примерно логарифмически по мере добавления вычислительных мощностей. Проблема в том, сколько денег вам нужно вложить для получения прибыли, и хотя суммы огромные, люди все равно продолжают инвестировать. В отличие от этого, в парадигме "рассуждения" вы можете получить гораздо более заметный прогресс за ту же стоимость, потому что рассуждение все еще находится в нижней части S-кривой. Таким образом, предварительное обучение не исчерпалось. Он сказал, что мы просто нашли новую парадигму, которая обеспечивает гораздо более значительный прогресс за ту же цену.