DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik herinner me ongeveer 2,5 jaar geleden, met @_lewtun en @edwardbeeching en co bij @huggingface hoe het maanden duurde om DPO goed werkend te krijgen. Vandaag de dag kunnen coderende agents een hele repository vanaf nul opbouwen, verwijzend naar hoogwaardige implementaties en het bespreken van afwegingen, en een representatieve trainingsjob op je bureau draaien. Dit was een model van 1B op duizenden monsters. Het verandert echt de toegankelijkheid van AI-onderzoek en experimenteren, samen met wat het betekent om in AI te werken. Ik heb zojuist de PR samengevoegd voor dit, wat een heleboel directe aligneringsalgoritmen (DPO enz.) toevoegt aan de rlhfbook code repo, en het is opmerkelijk hoe veel gemakkelijker dit vandaag de dag is. Ik voel me nog zekerder over wat het boek aan het worden is -- een dichte plek voor intuïties over wat daadwerkelijk werkt met modellen, vrij van hallucinaties en hype. Studenten kunnen dit gebruiken als referentie naast code en experimenten die de AI-modellen in een middag kunnen opzetten. Op zijn best zal het RLHF Book een centrale plek worden voor mensen om te discussiëren, itereren en een gemeenschap te vormen rond dit leermateriaal.

Boven

Positie

Favorieten