Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Temos um problema sério com o ajuste fino.
Qualquer um que tente fazer SFT ou RL hoje é forçado a escolher entre um dos dois extremos:
1. APIs "fáceis de usar" que lhe dão quase nenhum controle sobre o processo de treinamento.
2. Um inferno de infraestrutura total, onde você lida com checkpoints, GPUs brutas, tentativas, custos ociosos e encanamentos sem fim.
Há muito pouco entre esses dois extremos.
Conversei com algumas equipes que têm que escolher o menor desses dois males. A maioria acaba gastando uma fortuna em pessoas que podem lidar com a infraestrutura porque não têm outra escolha.
Aqui está uma alternativa diferente:
A equipe HPC-AI acaba de lançar um SDK de ajuste fino que lhe dá controle total sobre seu código de treinamento sem lidar com o inferno da infraestrutura:
• Você obtém receitas SFT personalizadas
• RL ou RLVR (Aprendizado por Reforço com Recompensas Verificáveis)
• Você pode usar suas próprias funções de recompensa
• Você pode usar seus próprios loops de treinamento
Eles cuidam de tudo do lado da infraestrutura:
• Você nunca toca nas configurações do Kubernetes
• Você nunca toca nos agendadores de cluster
• Você nunca toca no provisionamento de GPU
• Você nunca toca no encanamento de checkpoints distribuídos
Isso abre o ajuste fino para muitas mais equipes.
Você não precisa mais escolher entre "demasiado simples para ser útil" e "tão complexo que é um pesadelo."
A ideia chave aqui é muito simples: este modelo desacopla o design de algoritmos da engenharia de infraestrutura.
Há mais uma coisa:
Com este modelo, você paga por token em vez de alugar GPUs por hora e lidar com clusters ociosos.
Se você quiser experimentar isso, pode se inscrever com um código que a equipe compartilhou comigo (embutido no link abaixo):
Esse código lhe dará $10 em vouchers gratuitos (aproximadamente 1,5M de tokens) para executar seu primeiro trabalho de treinamento.
E aqui está o Repositório do GitHub com o SDK:
Obrigado à equipe HPC-AI por se associar a mim neste post.
425
Top
Classificação
Favoritos
