zbudowano umiejętność kodu claude, która przeprowadza trening RL na @PrimeIntellect od początku do końca dajesz nazwę zestawu danych. obsługuje wszystko — funkcję nagrody, walidację, ewaluację, przesyłanie do hubu, zgłoszenie treningu jedno polecenie -> uruchomienie zadania. "Zbuduj środowisko dla cais/mmlu algebry abstrakcyjnej, użyj Qwen/Qwen3-30B-Instruct-2507, 1000 kroków i zgłoś zadanie treningowe." link w komentarzach