DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

We hebben een serieus probleem met fine-tuning. Iedereen die vandaag SFT of RL probeert te doen, wordt gedwongen in een van de twee extremen: 1. "Gebruiksvriendelijke" API's die je bijna geen controle geven over het trainingsproces. 2. Volledige infrastructuurhel, waar je te maken hebt met checkpoints, rauwe GPU's, herhalingen, idle kosten en eindeloze leidingen. Er is heel weinig tussenin. Ik heb met een paar teams gesproken die de minste van deze twee kwaden moeten kiezen. De meesten eindigen met het uitgeven van een hoop geld aan mensen die met infrastructuur kunnen omgaan omdat ze geen andere keuze hebben. Hier is een ander alternatief: Het HPC-AI-team heeft zojuist een fine-tuning SDK uitgebracht die je volledige controle geeft over je trainingscode zonder te maken te hebben met infrastructuurhel: • Je krijgt aangepaste SFT-recepten • RL of RLVR (Reinforcement Learning met Verifieerbare Beloningen) • Je kunt je eigen beloningsfuncties gebruiken • Je kunt je eigen trainingslussen gebruiken Zij regelen alles aan de infrastructuurkant: • Je raakt nooit de Kubernetes-configuraties aan • Je raakt nooit de clusterplanners aan • Je raakt nooit de GPU-voorziening aan • Je raakt nooit de gedistribueerde checkpointleidingen aan Dit opent fine-tuning voor veel meer teams. Je hoeft niet langer te kiezen tussen "te eenvoudig om nuttig te zijn" en "zo complex dat het een nachtmerrie is." Het belangrijkste idee hier is heel eenvoudig: dit model ontkoppelt algoritmeontwerp van infrastructuurengineering. Er is nog iets: Met dit model betaal je per token in plaats van GPU's per uur te huren en te maken te hebben met idle clusters.

Als je dit wilt proberen, kun je je aanmelden met een code die het team met me heeft gedeeld (ingebed in de onderstaande link): Deze code geeft je $10 in gratis vouchers (ongeveer 1,5M tokens) om je eerste trainingsopdracht uit te voeren. En hier is de GitHub-repository met de SDK: Bedankt aan het HPC-AI-team voor de samenwerking aan deze post.

387

Boven

Positie

Favorieten