Et populært intervjuspørsmål for LLM: "Forklar de fire stadiene i trening av LLM-er fra bunnen av." (trinnvis forklaring nedenfor)
Det er hovedsakelig 4 stadier for å bygge LLM-er fra bunnen av: - Fortrening - Finjustering av instruksjoner - Preferansefinjustering - Finjustering av resonnement La oss forstå hver av dem! 0️⃣ Tilfeldig initialisert LLM På dette tidspunktet vet modellen ingenting. Du spør den «Hva er en LLM?» og får tull som «prøv peter hand og hei 448Sn». Den har ikke sett noen data ennå og har bare tilfeldige vekter. 1️⃣ Fortrening Dette trinnet lærer LLM-en det grunnleggende språket ved å trene den på massive korpora for å forutsi neste token. På denne måten absorberer den grammatikk, verdensfakta osv. Men den er ikke god til samtale fordi når den blir spurt, fortsetter den bare teksten. 2️⃣ Finjustering av instruksjoner For å gjøre det samtalepreget, gjør vi instruksjonsfinjustering ved å trene på instruksjons-respons-par. Dette hjelper den å lære å følge prompts og formatere svar. Nå kan den: - Svar på spørsmål - Oppsummer innholdet - Skrive kode, osv. På dette tidspunktet har vi sannsynlig: - Benyttet hele det rå internettarkivet og kunnskapen. - Budsjettet for menneskemerkede instruksjonsresponsdata. Så hva kan vi gjøre for å forbedre modellen ytterligere? Vi går inn i territoriet til forsterkningslæring (RL). 3️⃣ Preferansefinjustering (PFT) Du må ha sett en skjerm på ChatGPT hvor det spør: Hvilket svar foretrekker du? Det er ikke bare for tilbakemelding, men det er verdifull data om menneskelige preferanser. OpenAI bruker dette til å finjustere modellene sine ved hjelp av preferansefinjustering. I PFT: Brukeren velger mellom to svar for å produsere data om menneskelige preferanser. En belønningsmodell trenes deretter til å forutsi menneskelig preferanse, og LLM-en oppdateres ved hjelp av RL. Prosessen ovenfor kalles RLHF (Reinforcement Learning with Human Feedback), og algoritmen som brukes for å oppdatere modellvekter kalles PPO. Det lærer LLM å tilpasse seg mennesker selv når det ikke finnes noe «riktig» svar. Men vi kan forbedre LLM-en enda mer. 4️⃣ Justering av resonnement I resonnementoppgaver (matematikk, logikk osv.) er det vanligvis bare ett riktig svar og en definert rekke trinn for å finne svaret. Så vi trenger ikke menneskelige preferanser, og vi kan bruke korrekthet som signal. Trinn: - Modellen genererer et svar på en prompt. - Svaret sammenlignes med det kjente riktige svaret. - Basert på korrektheten tildeler vi en belønning. Dette kalles Forsterkningslæring med verifiserbare belønninger. GRPO fra DeepSeek er en populær teknikk. Det var de fire stadiene for å trene en LLM fra bunnen av. - Start med en tilfeldig initialisert modell. - Forhåndstren det på store korpora. - Bruk instruksjonsfinjustering for å få den til å følge kommandoer. - Bruk preferanse- og resonnementsfinjustering for å skjerpe responsene. 👉 Over til deg: Hvordan vil du forbedre LLM-en din ytterligere?
11,97K