Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eine beliebte Interviewfrage für LLMs:
"Erklären Sie die 4 Phasen des Trainings von LLMs von Grund auf."
(Schritt-für-Schritt-Erklärung unten)

Es gibt hauptsächlich 4 Phasen beim Aufbau von LLMs von Grund auf:
- Vortraining
- Anweisungsfeinabstimmung
- Präferenzfeinabstimmung
- Denkfeinabstimmung
Lass uns jede von ihnen verstehen!
0️⃣ Zufällig initialisiertes LLM
An diesem Punkt weiß das Modell nichts.
Du fragst es: „Was ist ein LLM?“ und erhältst Kauderwelsch wie „versuche peter hand und hallo 448Sn“.
Es hat noch keine Daten gesehen und besitzt nur zufällige Gewichte.
1️⃣ Vortraining
Diese Phase lehrt dem LLM die Grundlagen der Sprache, indem es auf massiven Korpora trainiert wird, um das nächste Token vorherzusagen.
Auf diese Weise absorbiert es Grammatik, Weltfakten usw.
Aber es ist nicht gut im Gespräch, denn wenn es aufgefordert wird, setzt es einfach den Text fort.
2️⃣ Anweisungsfeinabstimmung
Um es gesprächsfähig zu machen, führen wir die Anweisungsfeinabstimmung durch, indem wir auf Anweisungs-Antwort-Paare trainieren. Das hilft ihm zu lernen, wie man Aufforderungen folgt und Antworten formatiert.
Jetzt kann es:
- Fragen beantworten
- Inhalte zusammenfassen
- Code schreiben usw.
An diesem Punkt haben wir wahrscheinlich:
- Das gesamte Rohdatenarchiv des Internets und Wissen genutzt.
- Das Budget für menschlich gekennzeichnete Anweisungsantwortdaten.
Was können wir also tun, um das Modell weiter zu verbessern?
Wir betreten das Gebiet des Reinforcement Learning (RL).
3️⃣ Präferenzfeinabstimmung (PFT)
Du hast wahrscheinlich einen Bildschirm bei ChatGPT gesehen, auf dem gefragt wird: Welche Antwort bevorzugst du?
Das ist nicht nur für Feedback, sondern es sind wertvolle Daten zu menschlichen Präferenzen.
OpenAI nutzt dies, um ihre Modelle mit Präferenzfeinabstimmung zu optimieren.
In PFT:
Der Benutzer wählt zwischen 2 Antworten, um Daten zu menschlichen Präferenzen zu erzeugen.
Ein Belohnungsmodell wird dann trainiert, um menschliche Präferenzen vorherzusagen, und das LLM wird mit RL aktualisiert.
Der obige Prozess wird als RLHF (Reinforcement Learning mit menschlichem Feedback) bezeichnet, und der Algorithmus, der zur Aktualisierung der Modellgewichte verwendet wird, heißt PPO.
Es lehrt das LLM, sich an Menschen anzupassen, selbst wenn es keine "richtige" Antwort gibt.
Aber wir können das LLM noch weiter verbessern.
4️⃣ Denkfeinabstimmung
Bei Denkaufgaben (Mathematik, Logik usw.) gibt es normalerweise nur eine richtige Antwort und eine definierte Reihe von Schritten, um die Antwort zu erhalten.
Daher benötigen wir keine menschlichen Präferenzen, und wir können die Richtigkeit als Signal verwenden.
Schritte:
- Das Modell generiert eine Antwort auf eine Aufforderung.
- Die Antwort wird mit der bekannten richtigen Antwort verglichen.
- Basierend auf der Richtigkeit weisen wir eine Belohnung zu.
Das wird als Reinforcement Learning mit überprüfbaren Belohnungen bezeichnet.
GRPO von DeepSeek ist eine beliebte Technik.
Das waren die 4 Phasen des Trainings eines LLM von Grund auf.
- Beginne mit einem zufällig initialisierten Modell.
- Vortrainiere es auf großangelegten Korpora.
- Verwende Anweisungsfeinabstimmung, um es dazu zu bringen, Befehlen zu folgen.
- Verwende Präferenz- und Denkfeinabstimmung, um die Antworten zu schärfen.
👉 Überlasse es dir: Wie würdest du dein LLM weiter verbessern?




12,35K
Top
Ranking
Favoriten

