Técnicas de ajuste fino de LLM que aprendería si tuviera que personalizarlas: Guarda esto. 1. LoRA 2. QLoRA 3. Ajuste de Prefijo 4. Ajuste de Adaptador 5. Ajuste de Instrucciones 6. P-Tuning 7. BitFit 8. Prompts Suaves 9. RLHF 10. RLAIF 11. DPO (Optimización de Preferencias Directas) 12. GRPO (Optimización de Políticas Relativas de Grupo) 13. RLAIF (RL con Retroalimentación de IA) 14. Ajuste Fino Multitarea 15. Ajuste Fino Federado Mi favorito es GRPO para construir modelos de razonamiento. ¿Y el tuyo? He compartido mi tutorial completo sobre GRPO en las respuestas.