Una pregunta popular en una entrevista para un LLM: "Explica las 4 etapas de los LLMs de entrenamiento desde cero." (explicación paso a paso abajo)
Básicamente, hay 4 etapas para construir LLMs desde cero: - Preentrenamiento - Ajuste fino de instrucciones - Ajuste fino de preferencias - Ajuste fino del razonamiento ¡Vamos a entender cada uno de ellos! 0️⃣ LLM inicializado aleatoriamente En este punto, el modelo no sabe nada. Le preguntas "¿Qué es un LLM?" y te pones un galimatías como "prueba con Peter Hand y hola 448Sn". Aún no ha visto datos y solo posee pesos aleatorios. 1️⃣ Preentrenamiento Esta etapa enseña al LLM los fundamentos del lenguaje entrenándolo sobre corpus masivos para predecir el siguiente token. De este modo, absorbe la gramática, los hechos del mundo, etc. Pero no es bueno conversando porque, cuando se lo piden, simplemente continúa el texto. 2️⃣ Ajuste fino de instrucciones Para que sea conversacional, realizamos ajuste fino de instrucciones mediante entrenamiento en pares instrucciones-respuesta. Esto le ayuda a aprender a seguir las indicaciones y a formatear respuestas. Ahora puede: - Responder preguntas - Resumir contenido - Escribir código, etc. En este punto, probablemente tenemos: - Utilizaron todo el archivo y conocimiento en bruto de internet. - El presupuesto para datos de respuesta a instrucciones etiquetadas por humanos. ¿Qué podemos hacer para mejorar aún más el modelo? Entramos en el terreno del Aprendizaje por Refuerzo (RL). 3️⃣ Ajuste fino de preferencias (PFT) Debes haber visto una pantalla en ChatGPT donde pregunta: ¿Qué respuesta prefieres? Eso no es solo para recibir feedback, sino que son datos valiosos de preferencia humana. OpenAI utiliza esto para afinar sus modelos mediante ajustes de preferencias. En PFT: El usuario elige entre 2 respuestas para producir datos de preferencias humanas. A continuación, se entrena un modelo de recompensa para predecir la preferencia humana, y el LLM se actualiza usando RL. El proceso anterior se llama RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana), y el algoritmo utilizado para actualizar los pesos de los modelos se llama PPO. Enseña al LLM a alinearse con los humanos incluso cuando no hay una respuesta "correcta". Pero podemos mejorar aún más el LLM. 4️⃣ Ajuste fino del razonamiento En las tareas de razonamiento (matemáticas, lógica, etc.), normalmente solo hay una respuesta correcta y una serie definida de pasos para obtener la respuesta. Así que no necesitamos las preferencias humanas, y podemos usar la corrección como señal. Pasos: - El modelo genera una respuesta a un prompt. - La respuesta se compara con la respuesta correcta conocida. - En función de la corrección, asignamos una recompensa. Esto se llama Aprendizaje por Refuerzo con Recompensas Verificables. El GRPO de DeepSeek es una técnica popular. Esas fueron las 4 etapas de la formación de un LLM desde cero. - Comienza con un modelo inicializado aleatoriamente. - Preentrenarlo con corpus a gran escala. - Utilizar ajuste fino de instrucciones para que siga comandos. - Utilizar ajustes finos de preferencia y razonamiento para afinar las respuestas. 👉 Te toca a ti: ¿Cómo mejorarías aún más tu LLM?
12.35K