DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Jag minns för ~2,5 år sedan, med @_lewtun och @edwardbeeching och co på @huggingface hur det tog månader att få DPO att fungera rätt. Idag kan kodningsagenter bygga ett helt arkiv från grunden, referera till högkvalitativa implementationer och diskutera kompromisser, samt driva ett representativt utbildningsjobb på ditt skrivbord. Detta var en 1B-modell på tusentals prover. Det förändrar verkligen tillgängligheten till AI-forskning och experimenterande, samt vad det innebär att arbeta inom AI. Jag har precis slagit ihop PR:n för detta som lägger till en massa direktjusteringsalgoritmer (DPO etc) i rlhfbook-kodrepoet, och det är anmärkningsvärt hur mycket enklare detta är idag. Jag känner mig ännu mer säker på vad boken håller på att bli – en tät plats för intuitioner om vad som faktiskt fungerar med modeller, fri från hallucinationer och hype. Eleverna kan använda detta som referens vid sidan av kod och experiment som AI-modellerna kan sätta igång på en eftermiddag. I sin bästa form kommer RLHF-boken att bli en central plats för människor att diskutera, iterera och skapa gemenskap kring detta lärmaterial.

Topp

Rankning

Favoriter