Temos um problema sério com ajustes finos. Qualquer um que tente fazer SFT ou RL hoje é forçado a um de dois extremos: 1. APIs "fáceis de usar" que quase não dão controle sobre o processo de treinamento. 2. Infraestrutura total, onde você lida com checkpoints, GPUs puras, tentativas, custos de repouso e encanamento sem fim. Há muito pouco meio-termo. Conversei com algumas equipes que precisam escolher o menor desses dois males. A maioria acaba gastando muito dinheiro com pessoas que conseguem lidar com infraestrutura porque não têm outra escolha. Aqui está uma alternativa diferente: A equipe HPC-AI acabou de lançar um SDK de ajuste fino que te dá controle total sobre seu código de treinamento sem lidar com o inferno da infraestrutura: • Você recebe receitas personalizadas de SFT • RL ou RLVR (Aprendizado por Reforço com Recompensas Verificáveis) • Você pode usar suas próprias funções de recompensa • Você pode usar seus próprios loops de treinamento Eles cuidam de tudo no lado da infraestrutura: • Você nunca mexe nas configurações do Kubernetes • Você nunca mexe nos agendadores de cluster • Você nunca mexe no provisionamento da GPU • Você nunca toca no encanamento distribuído em checkpoint Isso abre ajustes finos para muito mais equipes. Você não precisa mais escolher entre "simples demais para ser útil" e "tão complexo que é um pesadelo." A ideia-chave aqui é muito simples: esse modelo desacopla o design de algoritmos da engenharia de infraestrutura. Tem mais uma coisa: Com esse modelo, você paga por token em vez de alugar GPUs por hora e lidar com clusters ociosos.
Se quiser tentar isso, pode se cadastrar com um código que a equipe compartilhou comigo (incorporado no link abaixo): Este código te dará $10 em vouchers gratuitos (aproximadamente 1,5 milhão de tokens) para realizar seu primeiro trabalho de treinamento. E aqui está o repositório do GitHub com o SDK: Obrigado à equipe da HPC-AI por colaborar comigo neste post.
411