Nästa gräns för RL-baserad LLM-utbildning: > Generalisering RL-miljöer kan hjälpa LLM:er att bli skickliga inom en specifik uppgift. Nästa genombrott är en RL-metod som kan generaliseras till vilken uppgift som helst. En universell verifierare. Pavel: "Den stora frågan är generalisering och hur man gör något som inte bara maxar benchmarks, utan faktiskt leder till verkliga förbättringar. Och det är en mycket svår fråga. Det har alltid varit den svåra frågan, tror jag, om maskininlärning."