DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Tinker de Thinking Machines étant en GA est l'un des premiers lancements depuis un certain temps qui ressemble réellement à un produit de formation. La plupart des API de fine-tuning hébergées (y compris celles de style OpenAI) sont géniales quand tout ce dont vous avez besoin est un SFT propre, mais dès que vous voulez faire quoi que ce soit d'un peu épicé : des programmes personnalisés, une évaluation en ligne, un post-entraînement basé sur des récompenses, des boucles de type RL, des astuces de batching/packing étranges : vous atteignez rapidement le plafond et vous finissez par reconstruire la moitié d'une pile de formation. Tinker renverse essentiellement cela : il vous fournit une API de formation avec des primitives de bas niveau (échantillon / forward_backward / optim_step / save_state), vous permettant d'écrire la boucle que vous souhaitez réellement, et ils s'occupent des parties qui se transforment normalement en un mois de travail d'infrastructure (planification, mise à l'échelle, préemptions, récupération après échec, le pourquoi ce travail est mort à 93 %). C'est aussi LoRA-first, ce qui est exactement le bon défaut pour la personnalisation : vous itérez plus rapidement, les coûts restent raisonnables, vous pouvez garder plusieurs variantes sans dupliquer d'énormes points de contrôle, et le service devient beaucoup plus pratique. J'aime aussi que l'histoire ne soit pas floue : LoRA peut vraiment égaler le fine-tuning complet sur de nombreux ensembles de données post-entraînement lorsque vous le configurez correctement, mais si vous essayez de faire entrer un changement de comportement massif dans un petit adaptateur (ou si votre ensemble de données dépasse simplement la capacité effective de l'adaptateur), vous ressentirez ce goulet d'étranglement et il ne disparaîtra pas magiquement. Le seul véritable inconvénient que je vois est le seuil des petits modèles : si votre objectif est de petits SLMs de périphérie, ce n'est probablement pas l'outil. Néanmoins, je suis enthousiaste à ce sujet. J'ai hâte de voir ce que les gens vont construire.

Meilleurs

Classement

Favoris