Jeg husker for ~2,5 år siden, med @_lewtun og @edwardbeeching og co. @huggingface hvordan det tok måneder å få DPO til å fungere riktig. I dag kan kodeagenter bygge et helt arkiv fra bunnen av, referere til implementeringer av høy kvalitet og diskutere avveininger, og kjøre en representativ opplæringsjobb på pulten din. Dette var en 1B-modell på tusenvis av prøver. Det endrer virkelig tilgjengeligheten til AI-forskning og justering, sammen med hva det betyr å jobbe med AI. Jeg har nettopp slått sammen PR-en for dette, som legger til en rekke direkte justeringsalgoritmer (DPO osv.) i rlhfbook-koderepoet, og det er bemerkelsesverdig hvor mye enklere dette er i dag. Jeg føler meg enda mer trygg på hva boken er i ferd med å bli – et tett sted for intuisjoner om hva som faktisk fungerer med modeller, fritt for hallusinasjoner og hype. Elevene kan bruke dette som referanse ved siden av kode og eksperimenter som AI-modellene kan sette opp på en ettermiddag. På sitt beste vil RLHF-boken bli et sentralt sted for folk å diskutere, iterere og skape fellesskap rundt dette læringsmaterialet.