Популярне питання для співбесіди для LLM: "Поясніть 4 етапи навчання LLM з нуля." (покрокове пояснення нижче)
Існує переважно 4 етапи створення LLM з нуля: - Попереднє навчання - Тонке налаштування інструкцій - Тонке налаштування преференцій - Тонке налаштування міркувань Давайте зрозуміємо кожну з них! 0️⃣ Випадково ініціалізований LLM На цьому етапі модель нічого не знає. Питаєш «Що таке LLM?» і чуєш нісенітницю на кшталт «спробуй Peter Hand і hello 448Sn». Він ще не бачив жодних даних і має лише випадкові ваги. 1️⃣ Попереднє навчання Цей етап навчає LLM основам мови, навчаючи його на масивних корпусах для прогнозування наступного токена. Таким чином, вона засвоює граматику, світові факти тощо. Але це не дуже добре веде розмову, бо при запиті текст просто продовжується. 2️⃣ Тонке налаштування інструкції Щоб зробити його розмовним, ми проводимо Instruction Fine-tuning, тренуючи на парах інструкція-відповідь. Це допомагає їй навчитися слідувати підказкам і форматувати відповіді. Тепер він може: - Відповідати на запитання - Підсумувати зміст - Писати код тощо. На цьому етапі, ймовірно, маємо: - Використали весь сирий інтернет-архів і знання. - Бюджет на дані про відповідь на інструкції, позначені людиною. Отже, що ми можемо зробити для подальшого покращення моделі? Ми занурюємося у сферу підкріпленого навчання (RL). 3️⃣ Налаштування преференцій (PFT) Ви, мабуть, бачили екран на ChatGPT, де запитують: Яку відповідь ви віддаєте перевагу? Це не лише для зворотного зв'язку, а й для цінних даних про людські вподобання. OpenAI використовує це для тонкого налаштування своїх моделей за допомогою налаштування за уподобаннями. У ПФТ: Користувач обирає між двома відповідями для отримання даних про людські вподобання. Модель винагороди потім навчається прогнозувати людські вподобання, а LLM оновлюється за допомогою RL. Вищезазначений процес називається RLHF (Reinforcement Learning with Human Feedback), а алгоритм, що використовується для оновлення ваг моделі, називається PPO. Вона навчає LLM узгоджуватися з людьми навіть тоді, коли немає «правильної» відповіді. Але ми можемо ще більше покращити LLM. 4️⃣ Тонке налаштування мислення У завданнях мислення (математика, логіка тощо) зазвичай є лише одна правильна відповідь і визначена серія кроків для її отримання. Тож нам не потрібні людські вподобання, і ми можемо використовувати правильність як сигнал. Кроки: - Модель генерує відповідь на запит. - Відповідь порівнюється з відомою правильною відповіддю. - На основі правильності призначаємо нагороду. Це називається навчанням за допомогою підкріплення з перевіреними винагородами. GRPO від DeepSeek — популярна техніка. Це були чотири етапи навчання LLM з нуля. - Починайте з випадково ініціалізованої моделі. - Попереднє навчання на великих корпусах. - Використовуйте тонке налаштування інструкцій для виконання команд. - Використовуйте тонке налаштування уподобань і міркування для уточнення відповідей. 👉 Слово вам: як би ви ще покращили свій LLM?
11,98K