Une question d'entretien populaire pour les LLM : "Expliquez les 4 étapes de l'entraînement des LLM à partir de zéro." (explication étape par étape ci-dessous)
Il y a principalement 4 étapes pour construire des LLM à partir de zéro : - Pré-entraînement - Affinage par instruction - Affinage par préférence - Affinage par raisonnement Comprenons chacune d'elles ! 0️⃣ LLM initialisé aléatoirement À ce stade, le modèle ne sait rien. Vous lui demandez "Qu'est-ce qu'un LLM ?" et vous obtenez des absurdités comme "essayer la main de peter et bonjour 448Sn". Il n'a encore vu aucune donnée et possède juste des poids aléatoires. 1️⃣ Pré-entraînement Cette étape enseigne les bases de la langue au LLM en l'entraînant sur d'énormes corpus pour prédire le prochain jeton. De cette manière, il absorbe la grammaire, des faits sur le monde, etc. Mais il n'est pas bon en conversation car lorsqu'on lui demande, il continue simplement le texte. 2️⃣ Affinage par instruction Pour le rendre conversationnel, nous faisons un affinage par instruction en l'entraînant sur des paires instruction-réponse. Cela l'aide à apprendre comment suivre des instructions et formater des réponses. Maintenant, il peut : - Répondre à des questions - Résumer du contenu - Écrire du code, etc. À ce stade, nous avons probablement : - Utilisé l'ensemble de l'archive internet brute et des connaissances. - Le budget pour les données d'instruction-réponse étiquetées par des humains. Alors, que pouvons-nous faire pour améliorer encore le modèle ? Nous entrons dans le domaine de l'apprentissage par renforcement (RL). 3️⃣ Affinage par préférence (PFT) Vous avez dû voir un écran sur ChatGPT où il demande : Quelle réponse préférez-vous ? Ce n'est pas juste pour des retours, mais c'est des données précieuses sur les préférences humaines. OpenAI utilise cela pour affiner ses modèles en utilisant l'affinage par préférence. Dans le PFT : L'utilisateur choisit entre 2 réponses pour produire des données de préférence humaine. Un modèle de récompense est ensuite entraîné pour prédire la préférence humaine, et le LLM est mis à jour en utilisant le RL. Le processus ci-dessus s'appelle RLHF (Apprentissage par Renforcement avec Retour Humain), et l'algorithme utilisé pour mettre à jour les poids du modèle s'appelle PPO. Il enseigne au LLM à s'aligner avec les humains même lorsqu'il n'y a pas de réponse "correcte". Mais nous pouvons améliorer encore plus le LLM. 4️⃣ Affinage par raisonnement Dans les tâches de raisonnement (mathématiques, logique, etc.), il y a généralement une seule réponse correcte et une série d'étapes définies pour obtenir la réponse. Donc, nous n'avons pas besoin de préférences humaines, et nous pouvons utiliser la justesse comme signal. Étapes : - Le modèle génère une réponse à une invite. - La réponse est comparée à la réponse correcte connue. - En fonction de la justesse, nous attribuons une récompense. C'est ce qu'on appelle l'apprentissage par renforcement avec des récompenses vérifiables. GRPO par DeepSeek est une technique populaire. Voilà les 4 étapes de l'entraînement d'un LLM à partir de zéro. - Commencez avec un modèle initialisé aléatoirement. - Pré-entraînez-le sur des corpus à grande échelle. - Utilisez l'affinage par instruction pour le faire suivre des commandes. - Utilisez l'affinage par préférence et par raisonnement pour affiner les réponses. 👉 À vous : Comment amélioreriez-vous encore votre LLM ?
12,35K