Îmi amintesc acum ~2,5 ani, cu @_lewtun și @edwardbeeching și compania la @huggingface cum a durat luni de zile să fac DPO să funcționeze corect. Astăzi, agenții de codare pot construi un întreg depozit de la zero, referindu-se la implementări de înaltă calitate și discutând compromisuri, și pot rula o muncă de training reprezentativă pe biroul tău. Acesta a fost un model 1B pe mii de mostre. Schimbă cu adevărat accesibilitatea cercetării și experimentării în AI, împreună cu ceea ce înseamnă să lucrezi în AI. Tocmai am fuzionat PR-ul pentru asta, care adaugă o mulțime de algoritmi de aliniere directă (DPO etc.) la repository-ul de cod rlhfbook, și e remarcabil cât de ușor este astăzi. Mă simt și mai încrezător în ceea ce devine cartea – un loc dens pentru intuiții despre ce funcționează cu adevărat cu modelele, fără halucinații și exagerări. Elevii pot folosi acest lucru ca referință, alături de cod și experimente pe care modelele AI le pot implementa într-o după-amiază. La cel mai bun nivel, Cartea RLHF va deveni un loc central unde oamenii pot discuta, itera și crea o comunitate în jurul acestui material de învățare.