Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ricordo circa 2,5 anni fa, con @_lewtun e @edwardbeeching e co. di @huggingface quanto ci volesse mesi per far funzionare correttamente il DPO.
Oggi, gli agenti di codifica possono costruire un intero repository da zero, facendo riferimento a implementazioni di alta qualità e discutendo i compromessi, e eseguire un lavoro di addestramento rappresentativo sulla tua scrivania. Questo era un modello da 1B su migliaia di campioni.
Cambia davvero l'accessibilità alla ricerca sull'AI e alla sperimentazione, insieme a ciò che significa lavorare nell'AI.
Ho appena fuso la PR per questo che aggiunge un sacco di algoritmi di allineamento diretto (DPO ecc.) al repository di codice rlhfbook, ed è notevole quanto sia più facile oggi.
Mi sento ancora più sicuro riguardo a ciò che il libro sta diventando -- un luogo denso di intuizioni su ciò che funziona realmente con i modelli, privo di allucinazioni e hype. Gli studenti possono usarlo come riferimento accanto a codice e esperimenti che i modelli AI possono generare in un pomeriggio.
Nel suo migliore, il RLHF Book diventerà un luogo centrale per le persone per discutere, iterare e creare comunità attorno a questo materiale di apprendimento.
Principali
Ranking
Preferiti
