Das ist wirklich cool. Es hat mich dazu gebracht, tiefer über personalisiertes RL nachzudenken: Was ist der eigentliche Sinn, ein Modell in einer Welt zu personalisieren, in der Basis-Modelle so schnell obsolet werden können? Die Realität in der KI ist, dass alle paar Wochen neue Modelle veröffentlicht werden, die jedes Mal besser sind als das letzte. Und das Tempo beschleunigt sich nur, wie wir im Hugging Face Hub sehen. Wir sind nicht weit davon entfernt, dass bessere Basis-Modelle täglich erscheinen. Es gibt hier eine Forschungslücke im RL, an der fast niemand arbeitet. Die meisten Forschungen zur Personalisierung von LLM gehen von einem festen Basis-Modell aus, aber nur sehr wenige fragen, was mit dieser Personalisierung passiert, wenn man das Basis-Modell wechselt. Denken Sie daran, von Llama 3 auf Llama 4 zu wechseln. Alle abgestimmten Präferenzen, Belohnungssignale und LoRAs sind plötzlich an das Modell von gestern gebunden. Als Benutzer oder Team möchten Sie nicht jedes neue Modell Ihre Präferenzen neu beibringen. Aber Sie möchten auch nicht an einem älteren Modell festhängen, nur weil es Sie kennt. Wir könnten dies "RL-Modell-Übertragbarkeit" nennen: Wie kann eine RL-Spur, ein Belohnungssignal oder eine Präferenzdarstellung, die auf Modell N trainiert wurde, destilliert, gespeichert und automatisch auf Modell N+1 ohne zu viel Benutzerbeteiligung angewendet werden? Wir haben das in SFT gelöst, wo ein Trainingsdatensatz gespeichert und wiederverwendet werden kann, um ein zukünftiges Modell zu trainieren. Wir haben auch eine Version davon in den RLHF-Phasen angegangen, aber es bleibt allgemein unklar, wenn man RL in der realen Welt einsetzt. Es gibt einige verwandte Threads (RLTR für übertragbare Denkspuren, P-RLHF und PREMIUM für modellunabhängige Benutzerdarstellungen, HCP für tragbare Präferenzprotokolle), aber der gesamte Zyklus scheint mir unterforscht zu sein. Einige dieser Fragen betreffen Off-Policy, aber andere betreffen Fähigkeiten versus Personalisierung: Welche der alten Anpassungen/Fixes behandelt das neue Modell bereits von Haus aus, und welche sind tatsächlich benutzer-/team-spezifisch, um jemals standardmäßig gelöst zu werden? Das würden Sie vorerst in einer Fähigkeit speichern, aber RL ermöglicht es, über das geschriebene Leitniveau hinaus zu erweitern. Ich habe sicherlich einige Arbeiten verpasst, also posten Sie bitte alle guten Arbeiten, die Sie zu diesem Thema gesehen haben, in die Kommentare.