P1: Zvládnutí fyzikálních olympiád pomocí posilovaného učení Kombinace škálování vlakového času pomocí RL po tréninku a škálování během testů pomocí agentického rámce na povrchu modelů Qwen3 umožňuje dosáhnout zlaté medaile na nejnovější Mezinárodní fyzikální olympiádě. Odkazy níže