Neste grense for RL-basert LLM-opplæring: > Generalisering RL-miljøer kan hjelpe LLM-er med å bli dyktige i en spesifikk oppgave. Det neste gjennombruddet er en RL-metode som kan generaliseres til enhver oppgave. En universell verifikator. Pavel: "Det store spørsmålet er generalisering og hvordan man lager noe som ikke bare maksimerer benchmarkene, men faktisk fører til reelle forbedringer. Og det er et veldig vanskelig spørsmål. Det har alltid vært det vanskelige spørsmålet, tror jeg, om maskinlæring.»