Estás en una entrevista para un científico investigador en Google. Entrevistador: Tenemos un LLM básico que es pésimo en matemáticas. ¿Cómo lo convertirías en una potencia de matemáticas y razonamiento? Tú: Voy a etiquetar algunos problemas y afinar el modelo. Entrevista terminada. Esto es lo que te perdiste:
Cuando las salidas son verificables, las etiquetas se vuelven opcionales. Las matemáticas, el código y la lógica pueden verificarse y validarse automáticamente. Usemos este hecho para construir un modelo de razonamiento sin etiquetado manual. Utilizaremos: - @UnslothAI para ajustes finos eficientes en parámetros de parámetro. - @HuggingFace TRL para aplicar GRPO. ¡Vamos! 🚀
¿Qué es GRPO? La optimización de políticas relativas de grupo es un método de aprendizaje por refuerzo que ajusta los LLM para tareas matemáticas y de razonamiento utilizando funciones de recompensa deterministas, eliminando la necesidad de datos etiquetados. Aquí hay una breve descripción general de GRPO antes de saltar al código:
1️⃣ Cargar el modelo Comenzamos cargando Qwen3-4B-Base y su tokenizador usando Unsloth. Puede usar cualquier otro LLM de peso abierto aquí. Mira esto 👇
2️⃣ Definir la configuración de LoRA Usaremos LoRA para evitar ajustar todos los pesos del modelo. En este código, usamos el PEFT de Unsloth especificando: - El modelo - LoRA de rango bajo (r) - Módulos para puesta a punto, etc. Mira esto 👇
3️⃣ Crear el conjunto de datos Cargamos el conjunto de datos Open R1 Math (un conjunto de datos de problemas matemáticos) y lo formateamos para razonar. Cada muestra incluye: - Un aviso del sistema que impone un razonamiento estructurado - Una pregunta del conjunto de datos - La respuesta en el formato requerido Comprueba este código 👇
4️⃣ Definir funciones de recompensa En GRPO utilizamos funciones deterministas para validar la respuesta y asignar una recompensa. ¡No se requiere etiquetado manual! Las funciones de recompensa: - Formato de partido exactamente - Formato de partido aproximadamente - Comprueba la respuesta - Números de cheques Mira esto 👇
5️⃣ Usa GRPO y comienza a entrenar Ahora que tenemos listo el conjunto de datos y las funciones de recompensa, es hora de aplicar GRPO. HuggingFace TRL proporciona todo lo que describimos en el diagrama GRPO, listo para usar, en forma de GRPOConfig y GRPOTrainer. Mira esto👇
6️⃣ Comparación Una vez más, podemos ver cómo GRPO convirtió un modelo base en una potencia de razonamiento. Mira esto👇
Antes de concluir, permítanme abordar una pregunta importante: ¿Cuándo se debe utilizar el ajuste fino de refuerzo (RFT) frente al ajuste fino supervisado (SFT)? Creé este diagrama para proporcionar una respuesta:
157.39K