Seuraava rajapinta RL-pohjaisessa LLM-koulutuksessa: > Yleistys Oikean elämän ympäristöt voivat auttaa LLM-opiskelijoita kehittymään taitaviksi missä tahansa tehtävässä. Seuraava läpimurto on RL-menetelmä, joka voi yleistää mihin tahansa tehtävään. Universaali varmentaja. Pavel: "Tärkein kysymys on yleistäminen ja miten tehdä jotain, joka ei vain maksimoi vertailuarvoja, vaan johtaa oikeasti todellisiin parannuksiin. Ja se on hyvin vaikea kysymys. Se on aina ollut koneoppimisen vaikea kysymys."