Técnicas de ajuste fino de LLM que aprendería si tuviera que personalizarlas: Marque esto. 1. LoRA 2. QLoRA 3. Ajuste de prefijos 4. Ajuste del adaptador 5. Ajuste de instrucciones 6. Afinación P 7. Ajuste de bits 8. Indicaciones suaves 9. RLHF 10. RLAIF 11. DPO (Optimización de preferencias directas) 12. GRPO (Optimización de políticas relativas al grupo) 13. RLAIF (RL con retroalimentación de IA) 14. Ajuste fino multitarea 15. Ajuste fino federado Mi favorito es GRPO para construir modelos de razonamiento. ¿Y tú? He compartido mi tutorial completo sobre GRPO en las respuestas.