Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Популярный вопрос на собеседовании по LLM:
"Объясните 4 этапа обучения LLM с нуля."
(пошаговое объяснение ниже)

Существует в основном 4 этапа создания LLM с нуля:
- Предварительное обучение
- Настройка по инструкциям
- Настройка по предпочтениям
- Настройка по рассуждениям
Давайте разберем каждый из них!
0️⃣ Случайно инициализированная LLM
На этом этапе модель ничего не знает.
Вы спрашиваете ее: "Что такое LLM?" и получаете бессмыслицу вроде "попробуйте peter hand и hello 448Sn".
Она еще не видела никаких данных и обладает только случайными весами.
1️⃣ Предварительное обучение
Этот этап обучает LLM основам языка, обучая ее на огромных корпусах для предсказания следующего токена.
Таким образом, она усваивает грамматику, факты о мире и т.д.
Но она не хороша в разговоре, потому что, когда ее просят, она просто продолжает текст.
2️⃣ Настройка по инструкциям
Чтобы сделать ее разговорной, мы проводим настройку по инструкциям, обучая на парах "инструкция-ответ". Это помогает ей научиться следовать подсказкам и форматировать ответы.
Теперь она может:
- Отвечать на вопросы
- Суммировать содержание
- Писать код и т.д.
На этом этапе мы, вероятно:
- Использовали весь архив и знания интернета.
- Бюджет на данные с человеческой разметкой для ответов на инструкции.
Так что мы можем сделать, чтобы еще больше улучшить модель?
Мы входим в область Обучения с подкреплением (RL).
3️⃣ Настройка по предпочтениям (PFT)
Вы, должно быть, видели экран в ChatGPT, где спрашивают: Какой ответ вы предпочитаете?
Это не только для обратной связи, но и ценные данные о человеческих предпочтениях.
OpenAI использует это для тонкой настройки своих моделей с помощью настройки по предпочтениям.
В PFT:
Пользователь выбирает между 2 ответами, чтобы получить данные о человеческих предпочтениях.
Затем обучается модель вознаграждения для предсказания человеческих предпочтений, и LLM обновляется с использованием RL.
Вышеупомянутый процесс называется RLHF (Обучение с подкреплением с человеческой обратной связью), а алгоритм, используемый для обновления весов модели, называется PPO.
Он обучает LLM соответствовать людям, даже когда нет "правильного" ответа.
Но мы можем еще больше улучшить LLM.
4️⃣ Настройка по рассуждениям
В задачах на рассуждение (математика, логика и т.д.) обычно есть только один правильный ответ и определенная последовательность шагов для его получения.
Поэтому нам не нужны человеческие предпочтения, и мы можем использовать правильность как сигнал.
Шаги:
- Модель генерирует ответ на подсказку.
- Ответ сравнивается с известным правильным ответом.
- На основе правильности мы присваиваем вознаграждение.
Это называется Обучение с подкреплением с проверяемыми вознаграждениями.
GRPO от DeepSeek — популярная техника.
Это были 4 этапа обучения LLM с нуля.
- Начните с случайно инициализированной модели.
- Предварительно обучите ее на крупных корпусах.
- Используйте настройку по инструкциям, чтобы она следовала командам.
- Используйте настройку по предпочтениям и рассуждениям, чтобы улучшить ответы.
👉 Теперь ваша очередь: Как бы вы еще улучшили свою LLM?




12,58K
Топ
Рейтинг
Избранное

