Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dit is echt cool.
Het deed me dieper nadenken over gepersonaliseerde RL: wat is het echte doel van het personaliseren van een model in een wereld waar basismodellen zo snel verouderd kunnen raken?
De realiteit in AI is dat er elke paar weken nieuwe modellen worden uitgebracht, elk beter dan het vorige. En het tempo versnelt alleen maar, zoals we zien op de Hugging Face Hub. We zijn niet ver verwijderd van betere basismodellen die dagelijks verschijnen.
Er is hier een onderzoeksgebrek in RL waar bijna niemand aan werkt. Het meeste onderzoek naar LLM-personalisatie gaat uit van een vast basismodel, maar zeer weinigen vragen zich af wat er met die personalisatie gebeurt wanneer je het basismodel verwisselt. Denk aan de overstap van Llama 3 naar Llama 4. Alle afgestelde voorkeuren, beloningssignalen en LoRAs zijn plotseling verbonden met het model van gisteren.
Als gebruiker of team wil je niet elke nieuwe model je voorkeuren opnieuw leren. Maar je wilt ook niet vastzitten aan een ouder model alleen omdat het jou kent.
We zouden dit "RL model overdraagbaarheid" kunnen noemen: hoe kan een RL-trace, een beloningssignaal of een voorkeurrepresentatie die is getraind op model N, worden gedistilleerd, opgeslagen en automatisch opnieuw toegepast op model N+1 zonder te veel betrokkenheid van de gebruiker? We hebben dat opgelost in SFT waar een trainingsdataset kan worden opgeslagen en hergebruikt om een toekomstig model te trainen. We hebben ook een versie daarvan aangepakt in RLHF-fases, maar het blijft over het algemeen onduidelijk wanneer RL in de echte wereld wordt ingezet.
Er zijn enkele gerelateerde threads (RLTR voor overdraagbare redeneersporen, P-RLHF en PREMIUM voor model-agnostische gebruikersrepresentaties, HCP voor draagbare voorkeurprotocollen), maar de volledige cyclus lijkt voor mij onderbestudeerd.
Sommige van deze vragen gaan over off-policy, maar andere gaan over capaciteiten versus personalisatie: welke van de oude aanpassingen/oplossingen behandelt het nieuwe model al standaard, en welke zijn eigenlijk gebruikers-/team-specifiek om ooit standaard opgelost te worden? Dat je nu in een vaardigheid zou opslaan, maar dat RL toestaat om verder te gaan dan het geschreven richtlijnen niveau.
Ik heb zeker wat werk gemist, dus plaats alsjeblieft goed werk dat je op dit onderwerp hebt gezien in de reacties.
Boven
Positie
Favorieten
