Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi har et alvorlig problem med finjustering.
Alle som prøver å gjøre SFT eller RL i dag blir tvunget inn i en av to ytterpunkter:
1. "Brukervennlige" API-er som gir deg nesten ingen kontroll over treningsprosessen.
2. Fullstendig infrastrukturhelvete, hvor du må håndtere sjekkpunkter, rå GPU-er, reprøver, inaktive kostnader og endeløs rørlegging.
Det er veldig lite imellom.
Jeg har snakket med noen lag som må velge det minste av disse to onderne. De fleste ender opp med å bruke masse penger på folk som kan håndtere infrastruktur fordi de ikke har noe annet valg.
Her er et annet alternativ:
HPC-AI-teamet har nettopp lansert en finjusterings-SDK som gir deg full kontroll over treningskoden uten å måtte håndtere infrastrukturhelvete:
• Du får tilpassede SFT-oppskrifter
• RL eller RLVR (Forsterkningslæring med verifiserbare belønninger)
• Du kan bruke dine egne belønningsfunksjoner
• Du kan bruke dine egne treningssløyfer
De håndterer alt på infrastruktursiden:
• Du rører aldri Kubernetes-konfigurasjoner
• Du rører aldri cluster-planleggere
• Du rører aldri GPU-provisionering
• Du rører aldri distribuert sjekkpunkt-rørlegging
Dette åpner for finjustering til mange flere team.
Du trenger ikke lenger velge mellom «for enkelt til å være nyttig» og «så komplekst at det er et mareritt.»
Hovedideen her er veldig enkel: Denne modellen skiller algoritmedesign fra infrastrukturteknikk.
Det er noe mer:
Med denne modellen betaler du per token i stedet for å leie GPU-er per time og håndtere inaktive klynger.
Hvis du vil prøve dette, kan du melde deg på med en kode teamet delte med meg (innebygd i lenken nedenfor):
Denne koden gir deg 10 dollar i gratis kuponger (omtrent 1,5 millioner tokens) for å drive din første opplæringsjobb.
Og her er GitHub-repositoriet med SDK-en:
Takk til HPC-AI-teamet for samarbeidet med meg i dette innlegget.
407
Topp
Rangering
Favoritter
