Następną granicą dla treningu LLM opartego na RL jest: > Uogólnienie Środowiska RL mogą pomóc LLM stać się biegłymi w dowolnym konkretnym zadaniu. Następnym przełomem jest metoda RL, która potrafi uogólniać na każde zadanie. Uniwersalny weryfikator. Pavel: "Główne pytanie dotyczy uogólnienia i jak stworzyć coś, co nie tylko maksymalizuje wyniki w benchmarkach, ale faktycznie prowadzi do prawdziwych ulepszeń. I to jest bardzo trudne pytanie. To zawsze było trudne pytanie, myślę, w uczeniu maszynowym."