Questo è davvero interessante. Mi ha fatto riflettere più a fondo sulla personalizzazione del RL: qual è il vero scopo di personalizzare un modello in un mondo in cui i modelli di base possono diventare obsoleti così rapidamente? La realtà nell'AI è che nuovi modelli vengono rilasciati ogni poche settimane, ognuno migliore dell'ultimo. E il ritmo sta solo accelerando, come vediamo su Hugging Face Hub. Non siamo lontani dal vedere modelli di base migliori rilasciati quotidianamente. C'è una lacuna di ricerca nel RL qui su cui quasi nessuno sta lavorando. La maggior parte della ricerca sulla personalizzazione degli LLM assume un modello di base fisso, ma molto pochi si chiedono cosa succede a quella personalizzazione quando si cambia il modello di base. Pensa a passare da Llama 3 a Llama 4. Tutte le preferenze sintonizzate, i segnali di ricompensa e i LoRAs sono improvvisamente legati al modello di ieri. Come utente o team, non vuoi dover insegnare ogni nuovo modello le tue preferenze. Ma non vuoi nemmeno rimanere bloccato su uno più vecchio solo perché ti conosce. Potremmo chiamare questo "trasferibilità del modello RL": come può una traccia RL, un segnale di ricompensa o una rappresentazione delle preferenze addestrata sul modello N essere distillata, memorizzata e riapplicata automaticamente al modello N+1 senza troppa partecipazione dell'utente? Abbiamo risolto questo in SFT dove un dataset di addestramento può essere memorizzato e riutilizzato per addestrare un modello futuro. Abbiamo anche affrontato una versione di questo nelle fasi RLHF in qualche modo, ma rimane poco chiaro in generale quando si utilizza il RL implementato nel mondo reale. Ci sono alcuni thread correlati (RLTR per tracce di ragionamento trasferibili, P-RLHF e PREMIUM per rappresentazioni utente agnostiche al modello, HCP per protocolli di preferenza portatili) ma l'intero ciclo sembra poco studiato per me. Alcune di queste domande riguardano l'off-policy, ma altre riguardano le capacità rispetto alla personalizzazione: quali delle vecchie personalizzazioni/fix il nuovo modello gestisce già di default, e quali sono effettivamente specifiche per l'utente/team da risolvere per default? Che ora memorizzeresti in una competenza, ma che il RL consente di estendere oltre il livello di guida scritta. Sicuramente mi sono perso qualche lavoro, quindi per favore pubblica qualsiasi buon lavoro che hai visto su questo argomento nei commenti.