Die nächste Grenze für das Training von RL-basierten LLMs: > Generalisierung RL-Umgebungen können LLMs helfen, in jeder spezifischen Aufgabe kompetent zu werden. Der nächste Durchbruch ist eine RL-Methode, die auf jede Aufgabe verallgemeinern kann. Ein universeller Verifier. Pavel: "Die zentrale Frage ist die Generalisierung und wie man etwas macht, das nicht nur die Benchmarks maximiert, sondern tatsächlich zu echten Verbesserungen führt. Und das ist eine sehr schwierige Frage. Das war immer die schwierige Frage, denke ich, im maschinellen Lernen."