Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Recuerdo que hace ~2,5 años, con @_lewtun y @edwardbeeching y compañía en @huggingface que tardaba meses en que el DPO funcionara bien.
Hoy en día, los agentes de codificación pueden construir un repositorio completo desde cero, referenciando implementaciones de alta calidad y discutiendo los compromisos, y ejecutar un trabajo de formación representativa en tu escritorio. Este era un modelo 1B con miles de muestras.
Realmente cambia el acceso a la investigación y el trasteo en IA, junto con lo que significa trabajar en IA.
Acabo de fusionar el PR de esto, que añade un montón de algoritmos de alineación directa (DPO, etc.) al repositorio de código de rlhfbook, y es sorprendente lo mucho más fácil que es hoy en día.
Me siento aún más seguro sobre en lo que se está convirtiendo el libro: un lugar denso para intuiciones sobre lo que realmente funciona con modelos, libre de alucinaciones y exageraciones. Los estudiantes pueden usar esto como referencia junto al código y experimentos que los modelos de IA pueden crear en una tarde.
En su mejor momento, el Libro RLHF se convertirá en un lugar central donde la gente pueda debatir, iterar y crear comunidad en torno a este material de aprendizaje.
Populares
Ranking
Favoritas
