Máme vážný problém s jemným laděním. Kdokoli, kdo se dnes snaží dělat SFT nebo RL, je nucen do dvou extrémů: 1. "Snadno použitelná" API, která vám téměř nedávají kontrolu nad tréninkovým procesem. 2. Plnohodnotné infrastrukturní peklo, kde řešíte kontrolní body, surové GPU, opakované testy, náklady na nečinnost a nekonečné instalace. Mezi tím je velmi málo. Mluvil jsem s několika týmy, které si musí vybrat menší zlo z těchto dvou možností. Většina nakonec utratí spoustu peněz za lidi, kteří zvládnou infrastrukturu, protože nemají jinou možnost. Zde je jiná alternativa: Tým HPC-AI právě vydal doladitelný SDK, který vám dává plnou kontrolu nad vaším tréninkovým kódem bez nutnosti řešit infrastrukturní peklo: • Dostanete vlastní recepty na SFT • RL nebo RLVR (Posilované učení s ověřitelnými odměnami) • Můžete používat vlastní odměnové funkce • Můžete použít vlastní tréninkové smyčky Na straně infrastruktury se starají o vše: • Nikdy se nedotýkáte konfigurací Kubernetes • Nikdy se nedotýkáte clusterových plánovačů • Nikdy se nedotknete provisioningu GPU • Nikdy se nedotýkáte distribuovaného kontrolního vodovodu To otevírá možnosti pro doladění mnoha týmů. Už nemusíte volit mezi "příliš jednoduché na to, aby to bylo užitečné" a "tak složité, že je to noční můra." Klíčová myšlenka je zde velmi jednoduchá: Tento model odděluje návrh algoritmů od infrastrukturního inženýrství. Je tu ještě něco: S tímto modelem platíte za token, místo abyste si pronajímali GPU na hodinu a řešili nečinné clustery.
Pokud to chcete zkusit, můžete se přihlásit pomocí kódu, který mi tým sdílel (vložený v odkazu níže): Tento kód vám poskytne 10 dolarů v bezplatných poukázkách (přibližně 1,5 milionu tokenů) na provedení vašeho prvního školení. A tady je GitHub Repository se SDK: Děkuji týmu HPC-AI za spolupráci na tomto příspěvku.
404