Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pamatuji si, že před ~2,5 lety, když jsme byli @_lewtun a @edwardbeeching a spol. ve @huggingface, trvalo měsíce, než DPO fungovalo správně.
Dnes mohou programátoři vybudovat celé repozitář od nuly, odkazovat na kvalitní implementace a diskutovat kompromisy, a zároveň vést reprezentativní školení přímo na vašem stole. Šlo o model 1B na tisících vzorků.
Opravdu to mění přístupnost výzkumu a experimentování s AI, stejně jako to, co znamená pracovat v AI.
Právě jsem sloučil PR, který přidává spoustu algoritmů přímého zarovnání (DPO atd.) do repozitáře rlhfbooku, a je pozoruhodné, jak je to dnes jednodušší.
Cítím se ještě jistější ohledně toho, čím se kniha stává – hustým místem pro intuice toho, co skutečně funguje s modely, bez halucinací a přehánění. Studenti to mohou použít jako referenci vedle kódu a experimentů, které AI modely spustí během jednoho odpoledne.
V tom nejlepším případě se RLHF Book stane centrálním místem, kde lidé diskutují, iterují a tvoří komunitu kolem tohoto učebního materiálu.
Top
Hodnocení
Oblíbené
