Una domanda popolare per i colloqui LLM: "Spiega le 4 fasi di addestramento degli LLM da zero." (spiegazione passo-passo qui sotto)
Ci sono principalmente 4 fasi per costruire LLM da zero: - Pre-addestramento - Affinamento delle istruzioni - Affinamento delle preferenze - Affinamento del ragionamento Comprendiamo ciascuna di esse! 0️⃣ LLM inizializzato casualmente A questo punto, il modello non sa nulla. Gli chiedi “Che cos'è un LLM?” e ottieni parole senza senso come “prova peter hand e hello 448Sn”. Non ha ancora visto alcun dato e possiede solo pesi casuali. 1️⃣ Pre-addestramento Questa fase insegna all'LLM le basi del linguaggio addestrandolo su enormi corpora per prevedere il token successivo. In questo modo, assorbe grammatica, fatti del mondo, ecc. Ma non è bravo nella conversazione perché, quando viene sollecitato, continua semplicemente il testo. 2️⃣ Affinamento delle istruzioni Per renderlo conversazionale, facciamo l'affinamento delle istruzioni addestrando su coppie di istruzioni-risposte. Questo lo aiuta a imparare come seguire le richieste e formattare le risposte. Ora può: - Rispondere a domande - Riassumere contenuti - Scrivere codice, ecc. A questo punto, abbiamo probabilmente: - Utilizzato l'intero archivio internet grezzo e la conoscenza. - Il budget per i dati di risposta alle istruzioni etichettati da umani. Quindi, cosa possiamo fare per migliorare ulteriormente il modello? Entriamo nel territorio dell'Apprendimento per Rinforzo (RL). 3️⃣ Affinamento delle preferenze (PFT) Devi aver visto uno schermo su ChatGPT dove chiede: Quale risposta preferisci? Non è solo per feedback, ma è un prezioso dato di preferenza umana. OpenAI utilizza questo per affinare i propri modelli utilizzando l'affinamento delle preferenze. In PFT: L'utente sceglie tra 2 risposte per produrre dati di preferenza umana. Un modello di ricompensa viene quindi addestrato per prevedere la preferenza umana, e l'LLM viene aggiornato utilizzando RL. Il processo sopra è chiamato RLHF (Apprendimento per Rinforzo con Feedback Umano), e l'algoritmo utilizzato per aggiornare i pesi del modello è chiamato PPO. Insegna all'LLM ad allinearsi con gli esseri umani anche quando non c'è una risposta "corretta". Ma possiamo migliorare ulteriormente l'LLM. 4️⃣ Affinamento del ragionamento Nei compiti di ragionamento (matematica, logica, ecc.), di solito c'è solo una risposta corretta e una serie definita di passaggi per ottenere la risposta. Quindi non abbiamo bisogno di preferenze umane, e possiamo usare la correttezza come segnale. Passaggi: - Il modello genera una risposta a un prompt. - La risposta viene confrontata con la risposta corretta nota. - In base alla correttezza, assegniamo una ricompensa. Questo è chiamato Apprendimento per Rinforzo con Ricompense Verificabili. GRPO di DeepSeek è una tecnica popolare. Queste erano le 4 fasi per addestrare un LLM da zero. - Inizia con un modello inizializzato casualmente. - Pre-addestralo su corpora su larga scala. - Usa l'affinamento delle istruzioni per farlo seguire i comandi. - Usa l'affinamento delle preferenze e del ragionamento per affinare le risposte. 👉 A te: Come miglioreresti ulteriormente il tuo LLM?
11,98K