Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een populaire LLM interviewvraag:
"Leg de 4 fasen van het trainen van LLM's vanaf nul uit."
(stap-voor-stap uitleg hieronder)

Er zijn voornamelijk 4 fasen in het bouwen van LLM's vanaf nul:
- Voortraining
- Instructie-fijnstelling
- Voorkeursfijnstelling
- Redeneringsfijnstelling
Laten we elk van hen begrijpen!
0️⃣ Willekeurig geïnitialiseerde LLM
Op dit punt weet het model niets.
Je vraagt het “Wat is een LLM?” en krijgt onzin zoals “probeer peter hand en hallo 448Sn”.
Het heeft nog geen data gezien en heeft alleen willekeurige gewichten.
1️⃣ Voortraining
Deze fase leert de LLM de basis van de taal door het te trainen op enorme corpora om de volgende token te voorspellen.
Op deze manier absorbeert het grammatica, wereldfeiten, enz.
Maar het is niet goed in conversatie omdat het, wanneer het wordt gevraagd, gewoon de tekst voortzet.
2️⃣ Instructie-fijnstelling
Om het conversatievaardig te maken, doen we Instructie-fijnstelling door te trainen op instructie-responsparen. Dit helpt het om te leren hoe het prompts moet volgen en antwoorden moet formatteren.
Nu kan het:
- Vragen beantwoorden
- Inhoud samenvatten
- Code schrijven, enz.
Op dit punt hebben we waarschijnlijk:
- De hele ruwe internetarchief en kennis benut.
- Het budget voor door mensen gelabelde instructie-responsdata.
Dus wat kunnen we doen om het model verder te verbeteren?
We betreden het terrein van Versterkend Leren (RL).
3️⃣ Voorkeursfijnstelling (PFT)
Je moet een scherm op ChatGPT hebben gezien waar het vraagt: Welke reactie geef je de voorkeur?
Dat is niet alleen voor feedback, maar het is waardevolle menselijke voorkeurdata.
OpenAI gebruikt dit om hun modellen te verfijnen met behulp van voorkeursfijnstelling.
In PFT:
De gebruiker kiest tussen 2 reacties om menselijke voorkeurdata te produceren.
Een beloningsmodel wordt vervolgens getraind om menselijke voorkeur te voorspellen, en de LLM wordt bijgewerkt met behulp van RL.
Het bovenstaande proces wordt RLHF (Reinforcement Learning with Human Feedback) genoemd, en het algoritme dat wordt gebruikt om modelgewichten bij te werken, wordt PPO genoemd.
Het leert de LLM om zich aan te passen aan mensen, zelfs wanneer er geen "juiste" antwoord is.
Maar we kunnen de LLM nog verder verbeteren.
4️⃣ Redeneringsfijnstelling
In redeneringstaken (wiskunde, logica, enz.) is er meestal maar één correct antwoord en een gedefinieerde reeks stappen om het antwoord te verkrijgen.
Dus we hebben geen menselijke voorkeuren nodig, en we kunnen correctheid als signaal gebruiken.
Stappen:
- Het model genereert een antwoord op een prompt.
- Het antwoord wordt vergeleken met het bekende correcte antwoord.
- Op basis van de correctheid wijzen we een beloning toe.
Dit wordt Versterkend Leren met Verifieerbare Beloningen genoemd.
GRPO van DeepSeek is een populaire techniek.
Dat waren de 4 fasen van het trainen van een LLM vanaf nul.
- Begin met een willekeurig geïnitialiseerd model.
- Voortrain het op grootschalige corpora.
- Gebruik instructie-fijnstelling om het commando's te laten volgen.
- Gebruik voorkeur- en redeneringsfijnstelling om antwoorden te verfijnen.
👉 Aan jou: Hoe zou je jouw LLM verder verbeteren?




12,59K
Boven
Positie
Favorieten

