Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lembro-me de há cerca de 2,5 anos, com @_lewtun e @edwardbeeching e companhia na @huggingface, como levou meses para fazer o DPO funcionar corretamente.
Hoje, agentes de codificação podem construir um repositório inteiro do zero, referenciando implementações de alta qualidade e discutindo trade-offs, e executar um trabalho de treinamento representativo na sua mesa. Este foi um modelo de 1B em milhares de amostras.
Isso realmente muda a acessibilidade à pesquisa em IA e à experimentação, juntamente com o que significa trabalhar em IA.
Acabei de mesclar o PR para isso, que adiciona um monte de algoritmos de alinhamento direto (DPO etc.) ao repositório de código do rlhfbook, e é notável como isso é muito mais fácil hoje.
Estou me sentindo ainda mais confiante sobre o que o livro está se tornando -- um lugar denso para intuições sobre o que realmente funciona com modelos, livre de alucinações e exageros. Os alunos podem usar isso como referência ao lado do código e dos experimentos que os modelos de IA podem gerar em uma tarde.
No seu melhor, o RLHF Book se tornará um lugar central para as pessoas discutirem, iterarem e criarem comunidade em torno deste material de aprendizagem.
Top
Classificação
Favoritos
