prime-rl: skala wnioskowania podów w trakcie szkolenia → automatyczne odkrywanie → automatyczna synchronizacja wag → automatyczne kierowanie rolloutami