Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Recuerdo que hace aproximadamente 2.5 años, con @_lewtun y @edwardbeeching y compañía en @huggingface, cómo tomó meses hacer que DPO funcionara correctamente.
Hoy en día, los agentes de codificación pueden construir un repositorio completo desde cero, haciendo referencia a implementaciones de alta calidad y discutiendo compensaciones, y ejecutar un trabajo de entrenamiento representativo en tu escritorio. Este era un modelo de 1B con miles de muestras.
Realmente cambia la accesibilidad a la investigación y experimentación en IA, junto con lo que significa trabajar en IA.
Acabo de fusionar la PR para esto que añade un montón de algoritmos de alineación directa (DPO, etc.) al repositorio de código de rlhfbook, y es notable lo mucho más fácil que es hoy en día.
Me siento aún más seguro sobre lo que el libro se está convirtiendo: un lugar denso para intuiciones sobre lo que realmente funciona con los modelos, libre de alucinaciones y exageraciones. Los estudiantes pueden usar esto como referencia junto al código y experimentos que los modelos de IA pueden generar en una tarde.
En su mejor momento, el RLHF Book se convertirá en un lugar central para que las personas discutan, iteren y creen comunidad en torno a este material de aprendizaje.
Parte superior
Clasificación
Favoritos
