Meillä on vakava ongelma hienosäädön kanssa. Jokainen, joka yrittää tehdä SFT:tä tai RL:ää nykyään, joutuu kahteen ääripäähän: 1. "Helppokäyttöiset" API:t, jotka antavat sinulle lähes olemattoman kontrollin koulutusprosessiin. 2. Täysimittainen infrastruktuurihelvetti, jossa kohtaat tarkistuspisteiden, raaka-näytönohjainten, kokeilut, tyhjäkäyntikulut ja loputtomat putkistot. Välissä on hyvin vähän. Olen puhunut muutamien joukkueiden kanssa, jotka joutuvat valitsemaan näistä kahdesta pahasta pienempi. Useimmat päätyvät käyttämään valtavasti rahaa ihmisiin, jotka pystyvät hoitamaan infrastruktuurin, koska heillä ei ole muuta vaihtoehtoa. Tässä on toinen vaihtoehto: HPC-AI-tiimi julkaisi juuri hienosäätöisen SDK:n, joka antaa sinulle täyden hallinnan koulutuskoodiisi ilman infrastruktuurin ongelmia: • Saat räätälöityjä SFT-reseptejä • RL tai RLVR (vahvistusoppiminen todennettavissa olevilla palkinnoilla) • Voit käyttää omia palkintotoimintojasi • Voit käyttää omia harjoitussilmukojasi He hoitavat kaiken infrastruktuuripuolella: • Et koskaan koske Kubernetesin konfiguraatioihin • Et koskaan koske klusteriaikatauluttajiin • Et koskaan koske GPU:n provisointiin • Et koskaan koske hajautettuihin tarkastuspisteputkistoihin Tämä avaa hienosäätöä monille muille tiimeille. Sinun ei enää tarvitse valita "liian yksinkertainen ollakseen hyödyllinen" ja "niin monimutkainen, että se on painajainen." Keskeinen ajatus on hyvin yksinkertainen: Tämä malli erottaa algoritmisuunnittelun infrastruktuurisuunnittelusta. On vielä yksi asia: Tässä mallissa maksat tokenia kohden sen sijaan, että vuokraat GPU:ita tuntikaupalla ja hoitaisit käyttämättömiä klustereita.
Jos haluat kokeilla tätä, voit rekisteröityä koodilla, jonka tiimi jakoi kanssani (upotettuna alla olevaan linkkiin): Tämä koodi antaa sinulle 10 dollaria ilmaisina kuponkeina (noin 1,5 miljoonaa tokenia) ensimmäisen koulutustyösi suorittamiseen. Ja tässä on GitHub-repositorio SDK:n kanssa: Kiitos HPC-AI-tiimille yhteistyöstä kanssani tässä postauksessa.
422