Temos um problema sério com o ajuste fino. Qualquer um que tente fazer SFT ou RL hoje é forçado a escolher entre um dos dois extremos: 1. APIs "fáceis de usar" que lhe dão quase nenhum controle sobre o processo de treinamento. 2. Um inferno de infraestrutura total, onde você lida com checkpoints, GPUs brutas, tentativas, custos ociosos e encanamentos sem fim. Há muito pouco entre esses dois extremos. Conversei com algumas equipes que têm que escolher o menor desses dois males. A maioria acaba gastando uma fortuna em pessoas que podem lidar com a infraestrutura porque não têm outra escolha. Aqui está uma alternativa diferente: A equipe HPC-AI acaba de lançar um SDK de ajuste fino que lhe dá controle total sobre seu código de treinamento sem lidar com o inferno da infraestrutura: • Você obtém receitas SFT personalizadas • RL ou RLVR (Aprendizado por Reforço com Recompensas Verificáveis) • Você pode usar suas próprias funções de recompensa • Você pode usar seus próprios loops de treinamento Eles cuidam de tudo do lado da infraestrutura: • Você nunca toca nas configurações do Kubernetes • Você nunca toca nos agendadores de cluster • Você nunca toca no provisionamento de GPU • Você nunca toca no encanamento de checkpoints distribuídos Isso abre o ajuste fino para muitas mais equipes. Você não precisa mais escolher entre "demasiado simples para ser útil" e "tão complexo que é um pesadelo." A ideia chave aqui é muito simples: este modelo desacopla o design de algoritmos da engenharia de infraestrutura. Há mais uma coisa: Com este modelo, você paga por token em vez de alugar GPUs por hora e lidar com clusters ociosos.
Se você quiser experimentar isso, pode se inscrever com um código que a equipe compartilhou comigo (embutido no link abaixo): Esse código lhe dará $10 em vouchers gratuitos (aproximadamente 1,5M de tokens) para executar seu primeiro trabalho de treinamento. E aqui está o Repositório do GitHub com o SDK: Obrigado à equipe HPC-AI por se associar a mim neste post.
425