Muistan ~2,5 vuotta sitten, kun @_lewtun ja @edwardbeeching ja muut @huggingface DPO:n saaminen toimimaan kesti kuukausia. Nykyään koodausagentit voivat rakentaa kokonaisen tietovaraston alusta alkaen, viitaten laadukkaisiin toteutuksiin ja keskustellen kompromisseista, ja hoitaa edustavan koulutustyön työpöydälläsi. Tämä oli 1B-malli tuhansilla näytteillä. Se todella muuttaa tekoälytutkimuksen ja virittelyn saavutettavuutta sekä sitä, mitä tekoälyssä työskentely tarkoittaa. Yhdistin juuri tämän PR:n, joka lisää joukon suorasuuntausalgoritmeja (DPO jne.) rlhfbook-koodirepoon, ja on hämmästyttävää, kuinka paljon helpompaa tämä on nykyään. Olen entistä varmempi siitä, mitä kirjasta on tulossa – tiheäksi paikaksi intuitioille siitä, mikä oikeasti toimii mallien kanssa, ilman hallusinaatioita ja hypejä. Opiskelijat voivat käyttää tätä viitteenä koodin ja kokeiden lisäksi, joita tekoälymallit voivat käynnistää iltapäivän aikana. Parhaimmillaan RLHF-kirjasta tulee keskeinen paikka, jossa ihmiset voivat keskustella, kehittää ja muodostaa yhteisöä tämän oppimismateriaalin ympärille.