Popularne pytanie na rozmowie kwalifikacyjnej dotyczącej LLM: "Wyjaśnij 4 etapy szkolenia LLM od podstaw." (krok po kroku wyjaśnienie poniżej)
Istnieją głównie 4 etapy budowania LLM od podstaw: - Wstępne szkolenie - Dostosowanie instrukcji - Dostosowanie preferencji - Dostosowanie rozumowania Zrozummy każdy z nich! 0️⃣ Losowo zainicjowany LLM Na tym etapie model nic nie wie. Zadajesz mu pytanie „Czym jest LLM?” i otrzymujesz bełkot, taki jak „spróbuj ręki petera i cześć 448Sn”. Nie widział jeszcze żadnych danych i posiada tylko losowe wagi. 1️⃣ Wstępne szkolenie Ten etap uczy LLM podstaw języka, trenując go na ogromnych zbiorach danych, aby przewidywał następny token. W ten sposób przyswaja gramatykę, fakty ze świata itd. Ale nie jest dobry w rozmowie, ponieważ gdy jest wywoływany, po prostu kontynuuje tekst. 2️⃣ Dostosowanie instrukcji Aby uczynić go konwersacyjnym, przeprowadzamy Dostosowanie Instrukcji, trenując na parach instrukcja-odpowiedź. To pomaga mu nauczyć się, jak podążać za poleceniami i formatować odpowiedzi. Teraz może: - Odpowiadać na pytania - Podsumowywać treści - Pisać kod itd. Na tym etapie prawdopodobnie: - Wykorzystaliśmy cały surowy archiwum internetu i wiedzy. - Budżet na dane odpowiedzi z etykietami od ludzi. Co więc możemy zrobić, aby dalej poprawić model? Wchodzimy w obszar Uczenia przez Wzmocnienie (RL). 3️⃣ Dostosowanie preferencji (PFT) Musiałeś widzieć ekran w ChatGPT, na którym pyta: Którą odpowiedź preferujesz? To nie tylko dla informacji zwrotnej, ale to cenne dane dotyczące preferencji ludzi. OpenAI wykorzystuje to do dostosowywania swoich modeli za pomocą dostosowania preferencji. W PFT: Użytkownik wybiera między 2 odpowiedziami, aby uzyskać dane dotyczące preferencji ludzi. Model nagród jest następnie trenowany, aby przewidywać preferencje ludzi, a LLM jest aktualizowany za pomocą RL. Powyższy proces nazywa się RLHF (Uczenie przez Wzmocnienie z Informacją Zwrotną od Ludzi), a algorytm używany do aktualizacji wag modelu nazywa się PPO. Uczy LLM dostosowywać się do ludzi, nawet gdy nie ma "poprawnej" odpowiedzi. Ale możemy jeszcze bardziej poprawić LLM. 4️⃣ Dostosowanie rozumowania W zadaniach związanych z rozumowaniem (matematyka, logika itd.) zazwyczaj istnieje tylko jedna poprawna odpowiedź i zdefiniowany szereg kroków, aby uzyskać odpowiedź. Dlatego nie potrzebujemy preferencji ludzi, a możemy użyć poprawności jako sygnału. Kroki: - Model generuje odpowiedź na polecenie. - Odpowiedź jest porównywana z znaną poprawną odpowiedzią. - Na podstawie poprawności przyznajemy nagrodę. To nazywa się Uczeniem przez Wzmocnienie z Weryfikowalnymi Nagrodami. GRPO od DeepSeek to popularna technika. To były 4 etapy szkolenia LLM od podstaw. - Zaczynamy od losowo zainicjowanego modelu. - Wstępnie trenujemy go na dużych zbiorach danych. - Używamy dostosowania instrukcji, aby sprawić, że będzie podążał za poleceniami. - Używamy dostosowania preferencji i rozumowania, aby zaostrzyć odpowiedzi. 👉 Teraz do Ciebie: Jak byś dalej poprawił swój LLM?
12,35K