Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous avons un problème sérieux avec le fine-tuning.
Quiconque essaie de faire du SFT ou du RL aujourd'hui est contraint de choisir l'un des deux extrêmes :
1. Des API "faciles à utiliser" qui vous donnent presque aucun contrôle sur le processus d'entraînement.
2. Un enfer d'infrastructure complet, où vous devez gérer des checkpoints, des GPU bruts, des réessais, des coûts d'inactivité et une plomberie sans fin.
Il y a très peu d'options intermédiaires.
J'ai parlé à quelques équipes qui doivent choisir le moindre de ces deux maux. La plupart finissent par dépenser une fortune pour des personnes capables de gérer l'infrastructure parce qu'elles n'ont pas d'autre choix.
Voici une alternative différente :
L'équipe HPC-AI vient de sortir un SDK de fine-tuning qui vous donne un contrôle total sur votre code d'entraînement sans avoir à gérer l'enfer de l'infrastructure :
• Vous obtenez des recettes SFT personnalisées
• RL ou RLVR (Apprentissage par Renforcement avec Récompenses Vérifiables)
• Vous pouvez utiliser vos propres fonctions de récompense
• Vous pouvez utiliser vos propres boucles d'entraînement
Ils gèrent tout du côté de l'infrastructure :
• Vous ne touchez jamais aux configurations Kubernetes
• Vous ne touchez jamais aux planificateurs de clusters
• Vous ne touchez jamais à la provision des GPU
• Vous ne touchez jamais à la plomberie des checkpoints distribués
Cela ouvre le fine-tuning à beaucoup plus d'équipes.
Vous n'avez plus à choisir entre "trop simple pour être utile" et "tellement complexe que c'est un cauchemar."
L'idée clé ici est très simple : ce modèle découple la conception d'algorithmes de l'ingénierie d'infrastructure.
Il y a autre chose :
Avec ce modèle, vous payez par token plutôt que de louer des GPU à l'heure et de gérer des clusters inactifs.
Si vous souhaitez essayer cela, vous pouvez vous inscrire avec un code que l'équipe m'a partagé (intégré dans le lien ci-dessous) :
Ce code vous donnera 10 $ en bons gratuits (environ 1,5 M de tokens) pour exécuter votre premier travail d'entraînement.
Et voici le dépôt GitHub avec le SDK :
Merci à l'équipe HPC-AI de s'être associée à moi pour cet article.
407
Meilleurs
Classement
Favoris
