Abbiamo un serio problema con il fine-tuning. Chiunque cerchi di fare SFT o RL oggi è costretto a scegliere tra due estremi: 1. API "facili da usare" che ti danno quasi nessun controllo sul processo di addestramento. 2. Un vero e proprio inferno infrastrutturale, dove ti occupi di checkpoint, GPU grezze, ripetizioni, costi di inattività e tubature infinite. C'è molto poco nel mezzo. Ho parlato con alcuni team che devono scegliere il male minore tra questi due. La maggior parte finisce per spendere un sacco di soldi per persone che possono gestire l'infrastruttura perché non hanno altra scelta. Ecco un'alternativa diversa: Il team HPC-AI ha appena rilasciato un SDK per il fine-tuning che ti dà il pieno controllo sul tuo codice di addestramento senza dover affrontare l'inferno infrastrutturale: • Ottieni ricette SFT personalizzate • RL o RLVR (Reinforcement Learning con Ricompense Verificabili) • Puoi usare le tue funzioni di ricompensa • Puoi usare i tuoi cicli di addestramento Loro gestiscono tutto dal lato infrastrutturale: • Non tocchi mai le configurazioni di Kubernetes • Non tocchi mai i pianificatori di cluster • Non tocchi mai il provisioning delle GPU • Non tocchi mai le tubature di checkpoint distribuiti Questo apre il fine-tuning a molti più team. Non devi più scegliere tra "troppo semplice per essere utile" e "così complesso da essere un incubo." L'idea chiave qui è molto semplice: questo modello disaccoppia la progettazione degli algoritmi dall'ingegneria infrastrutturale. C'è qualcos'altro: Con questo modello, paghi per token piuttosto che affittare GPU all'ora e affrontare cluster inattivi.
Se vuoi provare questo, puoi iscriverti con un codice che il team ha condiviso con me (inserito nel link qui sotto): Questo codice ti darà $10 in buoni gratuiti (circa 1,5M token) per eseguire il tuo primo lavoro di formazione. Ecco il repository GitHub con l'SDK: Grazie al team HPC-AI per aver collaborato con me su questo post.
404