Další hranice pro výcvik LLM založeného na RL: > Zobecnění RL prostředí mohou pomoci LLM stát se zdatnými v jakémkoli konkrétním úkolu. Dalším průlomem je RL metoda, která se může zobecnit na jakýkoli úkol. Univerzální ověřovač. Pavel Pavle: "Hlavní otázkou je zobecnění a jak vytvořit něco, co nejen maximalizuje benchmarky, ale skutečně vede k opravdovým zlepšením. A to je velmi těžká otázka. To byla vždy těžká otázka, myslím, strojového učení."