Популярный вопрос на собеседовании по LLM: "Объясните 4 этапа обучения LLM с нуля." (пошаговое объяснение ниже)
Существует в основном 4 этапа создания LLM с нуля: - Предварительное обучение - Настройка по инструкциям - Настройка по предпочтениям - Настройка по рассуждениям Давайте разберем каждый из них! 0️⃣ Случайно инициализированная LLM На этом этапе модель ничего не знает. Вы спрашиваете ее: "Что такое LLM?" и получаете бессмыслицу вроде "попробуйте peter hand и hello 448Sn". Она еще не видела никаких данных и обладает только случайными весами. 1️⃣ Предварительное обучение Этот этап обучает LLM основам языка, обучая ее на огромных корпусах для предсказания следующего токена. Таким образом, она усваивает грамматику, факты о мире и т.д. Но она не хороша в разговоре, потому что, когда ее просят, она просто продолжает текст. 2️⃣ Настройка по инструкциям Чтобы сделать ее разговорной, мы проводим настройку по инструкциям, обучая на парах "инструкция-ответ". Это помогает ей научиться следовать подсказкам и форматировать ответы. Теперь она может: - Отвечать на вопросы - Суммировать содержание - Писать код и т.д. На этом этапе мы, вероятно: - Использовали весь архив и знания интернета. - Бюджет на данные с человеческой разметкой для ответов на инструкции. Так что мы можем сделать, чтобы еще больше улучшить модель? Мы входим в область Обучения с подкреплением (RL). 3️⃣ Настройка по предпочтениям (PFT) Вы, должно быть, видели экран в ChatGPT, где спрашивают: Какой ответ вы предпочитаете? Это не только для обратной связи, но и ценные данные о человеческих предпочтениях. OpenAI использует это для тонкой настройки своих моделей с помощью настройки по предпочтениям. В PFT: Пользователь выбирает между 2 ответами, чтобы получить данные о человеческих предпочтениях. Затем обучается модель вознаграждения для предсказания человеческих предпочтений, и LLM обновляется с использованием RL. Вышеупомянутый процесс называется RLHF (Обучение с подкреплением с человеческой обратной связью), а алгоритм, используемый для обновления весов модели, называется PPO. Он обучает LLM соответствовать людям, даже когда нет "правильного" ответа. Но мы можем еще больше улучшить LLM. 4️⃣ Настройка по рассуждениям В задачах на рассуждение (математика, логика и т.д.) обычно есть только один правильный ответ и определенная последовательность шагов для его получения. Поэтому нам не нужны человеческие предпочтения, и мы можем использовать правильность как сигнал. Шаги: - Модель генерирует ответ на подсказку. - Ответ сравнивается с известным правильным ответом. - На основе правильности мы присваиваем вознаграждение. Это называется Обучение с подкреплением с проверяемыми вознаграждениями. GRPO от DeepSeek — популярная техника. Это были 4 этапа обучения LLM с нуля. - Начните с случайно инициализированной модели. - Предварительно обучите ее на крупных корпусах. - Используйте настройку по инструкциям, чтобы она следовала командам. - Используйте настройку по предпочтениям и рассуждениям, чтобы улучшить ответы. 👉 Теперь ваша очередь: Как бы вы еще улучшили свою LLM?
12,58K