Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Popularne pytanie na rozmowie kwalifikacyjnej dotyczącej LLM:
"Wyjaśnij 4 etapy szkolenia LLM od podstaw."
(krok po kroku wyjaśnienie poniżej)

Istnieją głównie 4 etapy budowania LLM od podstaw:
- Wstępne szkolenie
- Dostosowanie instrukcji
- Dostosowanie preferencji
- Dostosowanie rozumowania
Zrozummy każdy z nich!
0️⃣ Losowo zainicjowany LLM
Na tym etapie model nic nie wie.
Zadajesz mu pytanie „Czym jest LLM?” i otrzymujesz bełkot, taki jak „spróbuj ręki petera i cześć 448Sn”.
Nie widział jeszcze żadnych danych i posiada tylko losowe wagi.
1️⃣ Wstępne szkolenie
Ten etap uczy LLM podstaw języka, trenując go na ogromnych zbiorach danych, aby przewidywał następny token.
W ten sposób przyswaja gramatykę, fakty ze świata itd.
Ale nie jest dobry w rozmowie, ponieważ gdy jest wywoływany, po prostu kontynuuje tekst.
2️⃣ Dostosowanie instrukcji
Aby uczynić go konwersacyjnym, przeprowadzamy Dostosowanie Instrukcji, trenując na parach instrukcja-odpowiedź. To pomaga mu nauczyć się, jak podążać za poleceniami i formatować odpowiedzi.
Teraz może:
- Odpowiadać na pytania
- Podsumowywać treści
- Pisać kod itd.
Na tym etapie prawdopodobnie:
- Wykorzystaliśmy cały surowy archiwum internetu i wiedzy.
- Budżet na dane odpowiedzi z etykietami od ludzi.
Co więc możemy zrobić, aby dalej poprawić model?
Wchodzimy w obszar Uczenia przez Wzmocnienie (RL).
3️⃣ Dostosowanie preferencji (PFT)
Musiałeś widzieć ekran w ChatGPT, na którym pyta: Którą odpowiedź preferujesz?
To nie tylko dla informacji zwrotnej, ale to cenne dane dotyczące preferencji ludzi.
OpenAI wykorzystuje to do dostosowywania swoich modeli za pomocą dostosowania preferencji.
W PFT:
Użytkownik wybiera między 2 odpowiedziami, aby uzyskać dane dotyczące preferencji ludzi.
Model nagród jest następnie trenowany, aby przewidywać preferencje ludzi, a LLM jest aktualizowany za pomocą RL.
Powyższy proces nazywa się RLHF (Uczenie przez Wzmocnienie z Informacją Zwrotną od Ludzi), a algorytm używany do aktualizacji wag modelu nazywa się PPO.
Uczy LLM dostosowywać się do ludzi, nawet gdy nie ma "poprawnej" odpowiedzi.
Ale możemy jeszcze bardziej poprawić LLM.
4️⃣ Dostosowanie rozumowania
W zadaniach związanych z rozumowaniem (matematyka, logika itd.) zazwyczaj istnieje tylko jedna poprawna odpowiedź i zdefiniowany szereg kroków, aby uzyskać odpowiedź.
Dlatego nie potrzebujemy preferencji ludzi, a możemy użyć poprawności jako sygnału.
Kroki:
- Model generuje odpowiedź na polecenie.
- Odpowiedź jest porównywana z znaną poprawną odpowiedzią.
- Na podstawie poprawności przyznajemy nagrodę.
To nazywa się Uczeniem przez Wzmocnienie z Weryfikowalnymi Nagrodami.
GRPO od DeepSeek to popularna technika.
To były 4 etapy szkolenia LLM od podstaw.
- Zaczynamy od losowo zainicjowanego modelu.
- Wstępnie trenujemy go na dużych zbiorach danych.
- Używamy dostosowania instrukcji, aby sprawić, że będzie podążał za poleceniami.
- Używamy dostosowania preferencji i rozumowania, aby zaostrzyć odpowiedzi.
👉 Teraz do Ciebie: Jak byś dalej poprawił swój LLM?




12,35K
Najlepsze
Ranking
Ulubione

