Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det største spørsmålet i RL-forskning har alltid vært - hvilket miljø trener du på?
Det pleide å være videospill (Atari) og brettspill (Go / Chess).
Men nå som RL fungerer med LLM-er, er det bare ett miljø som betyr noe. Og det er ditt produkt.

10. juli, 00:01
Hvorfor du bør slutte å jobbe med RL-forskning og i stedet jobbe med produkt //
Teknologien som låste opp det store skaleringsskiftet innen AI er internett, ikke transformatorer
Jeg tror det er velkjent at data er det viktigste innen AI, og også at forskere velger å ikke jobbe med det uansett. ... Hva vil det si å jobbe med data (på en skalerbar måte)?
Internett ga en rik kilde til rikelig med data, som var mangfoldig, ga en naturlig læreplan, representerte kompetansene folk faktisk bryr seg om, og var en økonomisk levedyktig teknologi å distribuere i stor skala - det ble det perfekte komplementet til neste token-prediksjon og var den opprinnelige suppen for AI å ta av.
Uten transformatorer kunne et hvilket som helst antall tilnærminger ha tatt av, vi kunne sannsynligvis ha CNN-er eller statlige rommodeller på nivå med GPT-4.5. Men det har ikke vært en dramatisk forbedring i basismodeller siden GPT-4. Resonneringsmodeller er gode i smale domener, men ikke et så stort sprang som GPT-4 var i mars 2023 (for over 2 år siden...)
Vi har noe flott med forsterkende læring, men min dype frykt er at vi vil gjenta feilene fra fortiden (2015-2020-æraen RL) og gjøre RL-forskning som ikke betyr noe.
På samme måte som internett var dobbelen av overvåket forhåndstrening, hva vil være dualen av RL som vil føre til et massivt fremskritt som GPT-1 -> GPT-4? Jeg synes det ser ut som forsknings-produkt-co-design.

10,61K
Topp
Rangering
Favoritter