Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Técnicas de ajuste fino de LLM que aprendería si tuviera que personalizarlas:
Guarda esto.
1. LoRA
2. QLoRA
3. Ajuste de Prefijo
4. Ajuste de Adaptador
5. Ajuste de Instrucciones
6. P-Tuning
7. BitFit
8. Prompts Suaves
9. RLHF
10. RLAIF
11. DPO (Optimización de Preferencias Directas)
12. GRPO (Optimización de Políticas Relativas de Grupo)
13. RLAIF (RL con Retroalimentación de IA)
14. Ajuste Fino Multitarea
15. Ajuste Fino Federado
Mi favorito es GRPO para construir modelos de razonamiento. ¿Y el tuyo?
He compartido mi tutorial completo sobre GRPO en las respuestas.
Parte superior
Clasificación
Favoritos
