Oblíbená otázka na pohovor pro LLM: "Vysvětli 4 fáze tréninku LLM od začátku." (podrobné vysvětlení níže)
Existují především 4 fáze budování LLM od začátku: - Předškolení - Jemné ladění instrukcí - Jemné ladění preferencí - Jemné ladění uvažování Pojďme je pochopit! 0️⃣ Náhodně inicializovaný LLM V tuto chvíli model nic neví. Zeptáte se "Co je to LLM?" a dostanete nesmysly jako "zkuste Peter Hand a hello 448Sn". Zatím neviděl žádná data a má jen náhodné váhy. 1️⃣ Předtrénink Tato fáze učí LLM základy jazyka tím, že jej trénuje na masivních korpusech, aby předpověděla další token. Tímto způsobem vstřebává gramatiku, světová fakta atd. Ale není dobrý v konverzaci, protože když je někdo vyzván, prostě pokračuje v textu. 2️⃣ Jemné ladění instrukcí Aby byl konverzační, provádíme doladění instrukcí školením na dvojicích instrukce-reakce. To mu pomáhá naučit se sledovat výzvy a formátovat odpovědi. Nyní může: - Odpovídej na otázky - Shrnutí obsahu - Psaní kódu atd. V tuto chvíli pravděpodobně máme: - Využil jsem celý surový internetový archiv a znalosti. - Rozpočet na data odpovědí na instrukce označená lidskou činností. Co tedy můžeme udělat pro další zlepšení modelu? Vstupujeme do oblasti posilovaného učení (RL). 3️⃣ Jemné ladění preferencí (PFT) Určitě jste viděli obrazovku na ChatGPT, kde se ptá: Kterou odpověď preferujete? To není jen pro zpětnou vazbu, ale jsou to cenná data o lidských preferencích. OpenAI to využívá k jemnému ladění svých modelů pomocí preferencního doladění. V PFT: Uživatel si vybírá mezi dvěma odpověďmi, aby vytvořil data o lidských preferencích. Poté je trénován model odměn, který předpovídá lidské preference, a LLM je aktualizován pomocí RL. Výše uvedený proces se nazývá RLHF (Reinforcement Learning with Human Feedback) a algoritmus používaný k aktualizaci vah modelu se nazývá PPO. Učí LLM sladit se s lidmi i tehdy, když neexistuje "správná" odpověď. Ale můžeme LLM ještě vylepšit. 4️⃣ Jemné ladění uvažování V úkolech uvažování (matematika, logika atd.) je obvykle jen jedna správná odpověď a jasně definovaná série kroků, jak ji získat. Takže nepotřebujeme lidské preference a můžeme použít správnost jako signál. Schody: - Model generuje odpověď na zadání. - Odpověď se porovnává s známou správnou odpovědí. - Na základě správnosti přidělujeme odměnu. Tomu se říká posilované učení s ověřitelnými odměnami. GRPO od DeepSeek je oblíbená technika. To byly čtyři fáze školení LLM od začátku. - Začněte s náhodně inicializovaným modelem. - Předškolit ho na velkých korpusech. - Použít jemné ladění instrukcí, aby následoval příkazy. - Použít jemné ladění preferencí a uvažování k ostření odpovědí. 👉 Teď na vás: Jak byste svůj LLM dále zlepšili?
11,97K